题目:请用4个数字 8 10 2 1 通过加减乘除计算97,要求每个数字只能使用一次。
评测结果:
- Gemini 2.0 Flash 回答正确
- DeepSeek V3 回答错误
- DeepSeek R1 回答正确
- Qwen 2.5 Max 回答错误
- Qwenn 2.5 Max 深度思考,推理过程太长了也没推理出来,放弃
- chatGPT 免费版 回答错误
- 豆包 回答错误
- 豆包 深度思考 回答正确
- 文心一言 回答错误
- 文心一眼 深度思考 回答正确
题目:请用4个数字 8 10 2 1 通过加减乘除计算97,要求每个数字只能使用一次。
评测结果:
接工具…
数学题用推理模型来做更适合
你没发现规律嘛 需要深度思考模型才行
因为这题没有想象中的简单,跟指定首尾字要求生成成语接龙一样,规律有限,只能靠剪枝+穷举
最早的chatGPT大家就发现数学不行了, 本质上是大语言模型,偏科很正常,
深度思考就是为了解决偏科的,
你试试千问的深度思考,思考了几分钟还没结果。感觉像是笨且努力的AI
确实,24点有难度
测的模型也不算数学好的吧
这上场对抗的都什么??
好歹也得上下o3mini、o1、3.7sonnet、2.5pro这样的吧
我是官网的 gemini 2.0 flash,直接出答案的啊,没有碰到你这个情况,用qwen的时候和你这个类似。
这些是以前刚开始的时候注册过账号的,后来基本上都用deepseek了,其他的没注册。