偶然想到了一个很经典的brain teaser,用来测一测各大推理模型,结果好像没有一个能答对的?
问题很简单:“如果昨天是明天就好了,那今天就是周五了”。今天是周几?
答案也基本秒出:周三
解析:在今天是周三的情况下,如果昨天是明天(周四),那今天就会是周五。对于其他日期不成立。
各模型回答如下:
gemini-exp-1206:
deepseek-r1-lite-preview:
o1:
更不用说非推理模型了:
gpt4o & claude3.5sonnet:
因为没有o1pro的权限,所以也就只测了这些。不知道是在tokenize方面有问题导致理解问题,还是本身推理能力就不够。不知道各位佬有没有什么头绪?
欢迎测试其他模型
更新:
在一些佬的分析下,似乎“昨天是明天”这句话有歧义。似乎可以理解为将“昨天”赋值给“明天”或者将“明天”赋值给“昨天“。这两种情况分别可以得到周日和周三的结论
但是进一步逻辑,对于前者理解,那就会是“如果周六是明天”,而该语序不符合常规,应该是“如果明天是周六”,也即“如果明天是昨天就好了”才符合常规语序。对于该题干“如果昨天是明天就好了”更符合语序的理解应该为“如果昨天是周四”,也即得到今天是周三