一个看似很简单的推理问题,推理模型却全军覆没?

偶然想到了一个很经典的brain teaser,用来测一测各大推理模型,结果好像没有一个能答对的?

问题很简单:“如果昨天是明天就好了,那今天就是周五了”。今天是周几?
答案也基本秒出:周三
解析:在今天是周三的情况下,如果昨天是明天(周四),那今天就会是周五。对于其他日期不成立。

各模型回答如下:

gemini-exp-1206:

deepseek-r1-lite-preview:

o1:

更不用说非推理模型了:
gpt4o & claude3.5sonnet:

因为没有o1pro的权限,所以也就只测了这些。不知道是在tokenize方面有问题导致理解问题,还是本身推理能力就不够。不知道各位佬有没有什么头绪?

欢迎测试其他模型

更新:
在一些佬的分析下,似乎“昨天是明天”这句话有歧义。似乎可以理解为将“昨天”赋值给“明天”或者将“明天”赋值给“昨天“。这两种情况分别可以得到周日周三的结论
但是进一步逻辑,对于前者理解,那就会是“如果周六是明天”,而该语序不符合常规,应该是“如果明天是周六”,也即“如果明天是昨天就好了”才符合常规语序。对于该题干“如果昨天是明天就好了”更符合语序的理解应该为“如果昨天是周四”,也即得到今天是周三

230 Likes

你可以试试英文,或者 俄文 德文之类语法特殊的。
我小学三年级,我也看不明白。 :crazy_face:

10 Likes

claude3.5 Haiku推理失败

27 Likes

理论上这个tokenize应该很简单,不应该存在理解不了这个中文的情况

7 Likes

为什么是周三 :melting_face:

17 Likes

喔掘嘚释揍日

3 Likes

断句的问题吧,原题的情况下是周四,也就是今天的日期,如果有明确的指向,那么没有问题。

17 Likes

所以答案是什么

30 Likes


gpt-4o乐

7 Likes

答案并不是秒出 至少我想了有半分钟

10 Likes

5 Likes

api 版的模型还是比较轻松

5 Likes

interesting,这是c3.5sonnet吗

对,3.5模型

2 Likes

看起来API处理这种没问题

6 Likes


我的o1答出来了诶,甚至
通易千问都能直接答出来。
豆包说星期三或星期六。

5 Likes

我的api正确率也很低,难道都是掺水的(悲

1 Like

假命题可以推出所有命题 :tieba_018:

7 Likes

实测o1mini就可以稳定答出来

3 Likes

感觉题目有问题

3 Likes