发现一个很有意思的题目只有claude3.7和gpt4.5能答对，其他模型全军覆没

btc123456 · 2025 年3 月 22 日 16:18

我觉得Gemini这个回答较好

paopao · 2025 年3 月 22 日 16:19

我这边r1其实已经思考过这种可能性了，但是最后的回答是这样的

huangbaoleng · 2025 年3 月 22 日 16:26

关联网试试，you的4.5很真，但是掺冰了

PoseidonLi0514 · 2025 年3 月 22 日 16:29

感觉差不多可以下结论了，只有4.5和3.7能做对，真不真这个问题验一下就知道

XDX-pp · 2025 年3 月 22 日 16:30

他这个联网开关还得去设置里关
不知道怎么想的

saturn · 2025 年3 月 22 日 16:32

害怕

huangbaoleng · 2025 年3 月 22 日 16:32

不仅如此，还内置一大堆提示词，以前3.5上下文不够就是提示词的问题，最真的模型，最拉胯的体验

ttyu · 2025 年3 月 22 日 16:39

这个解读有点意思

Require · 2025 年3 月 22 日 16:49

有点猎奇了……

XDX-pp · 2025 年3 月 22 日 16:52

还不显示思考

waffie · 2025 年3 月 22 日 17:55

4.5的回答，虽然断了，但是。。。

folow20601 · 2025 年3 月 22 日 21:21

cursor答得出来

study1024 · 2025 年3 月 23 日 00:44

昨天在x上看到这个图了，但是没明白为什么人称从我变成我们了，看了楼上所有的回答，似乎只有一个“羊是小孩，小孩和我都死了，被送上火车”能稍微解释，但是把羊说成小孩感觉引申地有点过了。。。。
好奇啊，有佬解答一下吗

qqy · 2025 年3 月 23 日 01:08

Claude3.5 3.7，4o 稳定回答。o3mini ，gemini 2 不稳定。国内的全军覆没

desire0119 · 2025 年3 月 23 日 01:14

过度解读了属于是

jiahut · 2025 年3 月 23 日 01:14

3.7 不带 thinking 的都可以
gpt 官网的我一开始试过了 4 4o o3-mini-high 都不行，最后试了 4.5 也不行

yrjjun · 2025 年3 月 23 日 01:33

我试了3.7 thinking也可以，在github copilot里面试的

handsome · 2025 年3 月 23 日 02:04

我第一眼都没看懂。。

user35 · 2025 年3 月 23 日 02:18

哈哈哈哈哈哈我也是

user35 · 2025 年3 月 23 日 02:21

我也是普号

话题		回复	浏览量
GPT 4o 刚刚又更新了？前沿快讯 ChatGPT , 人工智能	23	1539	2025 年3 月 28 日
大模型综合性能天梯定位表，个人主观看法（已更新o4mini、Gemini-2.5-Flash、o3、Grok-3-mini、GPT-4.1、御三家经典模型、Gemma、商汤、混元、豆包）文档共建人工智能	130	4557	2025 年4 月 18 日
【原创长文】关于Gemini 2.5 Pro，你想知道的一切。250409：2.5pro版Deep research上线，最强文生视频Veo2上线Gemini app【长期更新】搞七捻三 Gemini , 人工智能 , 纯水	255	9854	2025 年4 月 18 日
测试了几个大模型，发现它们都会犯一个错误搞七捻三人工智能 , 纯水	27	466	2025 年4 月 2 日
混元T1上线了，真的快!逆得也很快！前沿快讯人工智能 , 纯水	53	2448	2025 年3 月 24 日