感觉 AI 的数学没想象中的那么强啊

题目:请用4个数字 8 10 2 1 通过加减乘除计算97,要求每个数字只能使用一次。

评测结果:

  • Gemini 2.0 Flash 回答正确
  • DeepSeek V3 回答错误
  • DeepSeek R1 回答正确
  • Qwen 2.5 Max 回答错误
  • Qwenn 2.5 Max 深度思考,推理过程太长了也没推理出来,放弃
  • chatGPT 免费版 回答错误
  • 豆包 回答错误
  • 豆包 深度思考 回答正确
  • 文心一言 回答错误
  • 文心一眼 深度思考 回答正确
2 Likes

接工具…

数学题用推理模型来做更适合

你没发现规律嘛 需要深度思考模型才行


不降智的4O可以

看把克劳德激动的

被我淘汰的o1,我感觉o1不是被降智了,而是纯坏!!!
肯定是closeai添加了纯坏代码!

2 Likes

grok3的结果:
我猜想是开了推导

因为这题没有想象中的简单,跟指定首尾字要求生成成语接龙一样,规律有限,只能靠剪枝+穷举 :laughing:

最早的chatGPT大家就发现数学不行了, 本质上是大语言模型,偏科很正常,
深度思考就是为了解决偏科的,

你试试千问的深度思考,思考了几分钟还没结果。感觉像是笨且努力的AI

试了试grok2,果然,也是个纯坏b

1 Like

4o还可以

确实,24点有难度

我的gemini直接语无伦次了

测的模型也不算数学好的吧

1 Like

这上场对抗的都什么??

1 Like

好歹也得上下o3mini、o1、3.7sonnet、2.5pro这样的吧

我是官网的 gemini 2.0 flash,直接出答案的啊,没有碰到你这个情况,用qwen的时候和你这个类似。

这些是以前刚开始的时候注册过账号的,后来基本上都用deepseek了,其他的没注册。