问题:
114514*1919810=?
如果模型支持调用python等分析工具,还得告诉它不让用。
答案:
219845122340
各种大模型的评测结果:
o3 mini/o1系列正确并且飞速。
r1正确,极慢。
4o/gemini 1.5 pro/gemini exp 1206/claude 3.5 sonnet全错。
好笑的是claude 3.5 sonnet列了个假的竖式

问题:
114514*1919810=?
如果模型支持调用python等分析工具,还得告诉它不让用。
答案:
219845122340
各种大模型的评测结果:
o3 mini/o1系列正确并且飞速。
可能这就是推理模型的作用了
智慧的数字
openai是不是计算了啊