一个很难绷的测试大模型的问题

问题:

114514*1919810=?

如果模型支持调用python等分析工具,还得告诉它不让用。
答案:

219845122340

各种大模型的评测结果:
o3 mini/o1系列正确并且飞速。



r1正确,极慢。

4o/gemini 1.5 pro/gemini exp 1206/claude 3.5 sonnet全错。
好笑的是claude 3.5 sonnet列了个假的竖式 :rofl:

1 Like

可能这就是推理模型的作用了


:laughing: gemini也错了

智慧的数字 :bili_057:

openai是不是计算了啊

DeepSeekV3跟Claude-3.5-sonnet有時錯有時對
如果不限制的話回答最好的其實是4o,每次都會自動利用程式碼來計算出正確答案。