发现一个很有意思的题目只有claude3.7和gpt4.5能答对,其他模型全军覆没

tieba_010完了完了,我成人工智障了,看两遍没看出问题

1 个赞


还能解读出这样隐喻 :thinking:感觉有点东西 :melting_face:

1 个赞

AIGC内容请使用图片,小心有人举报

1 个赞

测试了下确实gemini2 pro貌似可以答对,温度默认为1时,扣留车被他作为猜测,温度最高为2时扣留车被放在了解析里,温度为0时更肯定,贴图为温度0:

1 个赞

:nerd_face: 还有一个点 各大AI 对华为云的考题 好像很麻木


逆向的api,是纯3.7吗

Gemini 2.0 pro exp 确实能答出来。
其他模型,deepseek的、qwen的、glm的,全部没有答出这一点。

1 个赞

grok3 claude-3.7sonnet o1的怎么说

grok3 可以回答出大部分意思,没答出扣车。(第一张图)
3.7 sonnet 可以发现问题,但答不出车辆被扣。(带 think 也差不多)

我用了grok3深度思考答不出来,geminipro我就测了一次,可能测太少了?没答出来,claude几乎是稳定答出来的,不管带不带think

为何不继续自驾好像好几家都能答出来,但是都答不到被扣作为赔偿,我觉得损坏这一点并不成立,故事这样写肯定是把车抵押了。

确实,这样的话甚至只答出“扣留”也不算满分,因为可能是交警扣留的。必须要答出车辆赔偿给羊主人这一点。

1 个赞

GPT 4.5

是我自己算力不足没推理出问题,不怪它们 :bili_001:

3.7 Thinking

gpt-4o

Gemini2.0proexp的答案(猫娘promopt所以一些奇怪的东西不要在意)
试了一下ds和qwq,给出的回答都过分解读了,而且很奇怪的都统一把羊解释成了基督教中替罪羊的物象,不知道是不是用的同一个数据集训练的结果(

我都没测4o,现在默认都把这个排除在外了。。似乎还抓到一点点


deepseek v3,这还写上小说了