发现一个很有意思的题目只有claude3.7和gpt4.5能答对，其他模型全军覆没

ytfl · 2025 年3 月 22 日 15:04

完了完了，我成人工智障了，看两遍没看出问题

user1 · 2025 年3 月 22 日 15:07

还能解读出这样隐喻

感觉有点东西

fangyuan99 · 2025 年3 月 22 日 15:07

PoseidonLi0514 · 2025 年3 月 22 日 15:07

AIGC内容请使用图片，小心有人举报

yrjjun · 2025 年3 月 22 日 15:12

测试了下确实gemini2 pro貌似可以答对，温度默认为1时，扣留车被他作为猜测，温度最高为2时扣留车被放在了解析里，温度为0时更肯定，贴图为温度0：

womian29 · 2025 年3 月 22 日 15:20

还有一个点各大AI 对华为云的考题好像很麻木

episode · 2025 年3 月 22 日 15:34

逆向的api，是纯3.7吗

sxjeru · 2025 年3 月 22 日 15:37

Gemini 2.0 pro exp 确实能答出来。
其他模型，deepseek的、qwen的、glm的，全部没有答出这一点。

Brian963 · 2025 年3 月 22 日 15:42

grok3 claude-3.7sonnet o1的怎么说

sxjeru · 2025 年3 月 22 日 15:53

grok3 可以回答出大部分意思，没答出扣车。（第一张图）
3.7 sonnet 可以发现问题，但答不出车辆被扣。（带 think 也差不多）

PoseidonLi0514 · 2025 年3 月 22 日 15:54

我用了grok3深度思考答不出来，geminipro我就测了一次，可能测太少了？没答出来，claude几乎是稳定答出来的，不管带不带think

PoseidonLi0514 · 2025 年3 月 22 日 15:56

为何不继续自驾好像好几家都能答出来，但是都答不到被扣作为赔偿，我觉得损坏这一点并不成立，故事这样写肯定是把车抵押了。

sxjeru · 2025 年3 月 22 日 16:00

确实，这样的话甚至只答出“扣留”也不算满分，因为可能是交警扣留的。必须要答出车辆赔偿给羊主人这一点。

taobao · 2025 年3 月 22 日 16:00

GPT 4.5

kk6499 · 2025 年3 月 22 日 16:01

是我自己算力不足没推理出问题，不怪它们

taobao · 2025 年3 月 22 日 16:04

3.7 Thinking

taobao · 2025 年3 月 22 日 16:05

gpt-4o

youyi1314 · 2025 年3 月 22 日 16:08

Gemini2.0proexp的答案（猫娘promopt所以一些奇怪的东西不要在意）
试了一下ds和qwq，给出的回答都过分解读了，而且很奇怪的都统一把羊解释成了基督教中替罪羊的物象，不知道是不是用的同一个数据集训练的结果（

PoseidonLi0514 · 2025 年3 月 22 日 16:09

我都没测4o，现在默认都把这个排除在外了。。似乎还抓到一点点

xgzlucario · 2025 年3 月 22 日 16:11

deepseek v3，这还写上小说了

话题		回复	浏览量
GPT 4o 刚刚又更新了？前沿快讯 ChatGPT , 人工智能	23	1535	2025 年3 月 28 日
大模型综合性能天梯定位表，个人主观看法（已更新Gemini-2.5-Pro-Exp-0325，GPT-4o-0328）文档共建人工智能	105	3351	2025 年3 月 28 日
ChatGPT4.5发布，一起来写评测吧！搞七捻三 ChatGPT , OpenAI , 人工智能	45	1396	2025 年3 月 18 日
【原创长文】关于Gemini 2.5 Pro，你想知道的一切。250409：2.5pro版Deep research上线，最强文生视频Veo2上线Gemini app【长期更新】搞七捻三 Gemini , 人工智能 , 纯水	247	9094	2025 年4 月 9 日
在群里看到个很有意思的测试大模型能力的问题开发调优人工智能	56	1487	2024 年12 月 10 日