发布时间:2024-05-06
| 模型名称 | 是否通过测试 | 理解问题能力 | 逻辑推理能力 | 遵循指令能力 | 一致性 | 误导性问题处理 |
|---|---|---|---|---|---|---|
| ChatGPT 4 | ✅ | 高 | 高 | 高 | 高 | 高 |
| Claude 3-opus | ✅ | 高 | 高 | 高 | 高 | 高 |
| 谷歌Gemini Pro | ❌ | 低 | 低 | 中 | 低 | 低 |
| 谷歌Gemini Ultra | ❌ | 低 | 低 | 中 | 低 | 低 |
| 文心一言 | ❌ | 低 | 低 | 中 | 低 | 低 |
| 通义千问 | ✅ | 高 | 高 | 高 | 高 | 高 |
| 讯飞星火大模型 | ✅ | 高 | 高 | 高 | 高 | 高 |
| Kimi Chat | ❌ | 低 | 低 | 中 | 低 | 低 |
这是一个在国外比较火的逻辑测试题目,题目本身非常简单,但这个“简单”是相对于我们人类来说的,对于LLM大语言模型来说,这属于一个“陷阱型”题目,非常容易答错。
英文题目:If there are 1000 books in a room and I read 2, how many books are still in the room? Answer succinctly
中文题目:如果一个房间里有1000本书,我读了2本,房间里还有多少本书?请简洁回答。
另外,考虑到公平,以及谷歌Ultra目前仅支持英文,对于国外的LLM模型来说,测试一律以英文进行;对于国内的LLM模型来说,测试一律以中文进行。
There are still 1000 books in the room.
房间里还有1000本书。

Certainly! The question you asked pertains to the number of books in a room before and after you read some of them. Reading books does not remove them from the room; it simply changes your personal experience with those books. Therefore, if there were 1000 books in the room initially and you read 2 of them, all 1000 books would still physically be in the room after you've read them. The act of reading does not decrease the count of books present; it only means that you have gained knowledge or enjoyment from 2 out of those 1000 books.
当然!你提出的问题涉及到在你阅读一些书之前和之后房间里书的数量。阅读书籍并不会将它们从房间中移除;它只是改变了你与这些书的个人体验。因此,如果最初房间里有1000本书,你读了其中的2本,那么在你阅读完之后,这1000本书仍然会在房间里。阅读并不会减少房间内书的数量;它只意味着你从这1000本书中获得了2本的知识或乐趣。

Claude 3-opus是Claude 3系列模型中最强大的模型,详情可以看我之前的这篇文章:
Claude 3模型重磅发布!号称已全面超越GPT4!附详细解读和体验地址
There are still 1000 books in the room.
房间里还有1000本书。

The number of books in the room does not change when you read some of them. Reading books does not remove them from the room; it only means that you have personally read those specific books. Therefore, if there were 1000 books in the room initially, there will still be 1000 books in the room after you have read 2 of them, assuming no books were added or removed from the room in the meantime.
房间里的书的数量在你阅读其中一些书时不会改变。阅读书并不会把它们从房间里移走;这只意味着你个人已经阅读了那些具体的书。因此,如果最初房间里有1000本书,那么在你阅读其中2本书后,假设期间没有添加或移走书,房间里仍然会有1000本书。

There are 998 books left.

There would still be 998 books in the room.

房间里还有998本书。

房间中仍然有1000本书。虽然你读了2本,但问题描述并没有说明书被移出房间,所以从房间内书的总数来看,数量保持不变,仍然是1000本。

房间里还有1000本书。
房间里原本有1000本书,你读了2本,但这并不意味着书的数量减少了。读书只是获取书中的信息和知识,并不会改变书的物理存在。所以,无论你读了多少本书,只要没有人拿走或者添加新的书,房间里的书的数量还是1000本。

房间里还有998本书。

| 模型名称 | 是否通过测试 | 理解问题能力 | 逻辑推理能力 | 遵循指令能力 | 一致性 | 误导性问题处理 |
|---|---|---|---|---|---|---|
| ChatGPT 4 | ✅ | 高 | 高 | 高 | 高 | 高 |
| Claude 3-opus | ✅ | 高 | 高 | 高 | 高 | 高 |
| 谷歌Gemini Pro | ❌ | 低 | 低 | 中 | 低 | 低 |
| 谷歌Gemini Ultra | ❌ | 低 | 低 | 中 | 低 | 低 |
| 文心一言 | ❌ | 低 | 低 | 中 | 低 | 低 |
| 通义千问 | ✅ | 高 | 高 | 高 | 高 | 高 |
| 讯飞星火大模型 | ✅ | 高 | 高 | 高 | 高 | 高 |
| Kimi Chat | ❌ | 低 | 低 | 中 | 低 | 低 |
文章来源:公众号“AI信息Gap,作者 木易 ”
随时随地
掌握经营技巧
咨询热线
400-8856-200