【非水】实测验证:豆包“思考模型”或强于普通模型,国内AI固守己见现象成因剖析

:sweat_smile: 水了两天了 :sweat_smile: 今天来一帖 认真的

咱们接着 Qwen3讨论 这个话题聊~ :backhand_index_pointing_down:
https://linux.do/t/topic/620165/9?u=stellafortuna


:face_with_monocle: 一道简单的物理题,豆包双模式表现大不同

刚才随手问了道 超简单的物理题 —— 就是那种向心加速度化简的。


:exploding_head: “不思考”的错得有点离谱:

  • 人话解释一下: 0.5 除以 0.2,这不就是 5 除以 2 嘛? 答案明明白白是 2.5 啊!
  • 真的是想不明白它那个 12.5 是怎么“蹦”出来的… :thinking:

:thinking: 探究 AI “死不悔改”的特性

接下来,我试着让这个“不思考版” 分析一下自己的错误原因

  • 结果更惊人了! :collision:
  • 我的一个推测: 它可能是先算出了上面那个错误的式子 (得到 12.5?),然后又把这个错误结果 重新代入 了一遍? (用 2.5 再除以一次 0.2) 这一步完全是 篡改题目,强行解释

:face_with_monocle: 再让“思考版”来分析分析:


:light_bulb: 所以,我的推测来了 (个人观点哈):

  • 固守己见? 这个 AI 在计算这个问题时 似乎有“执念”,很容易就 “卡”在错误答案 上。 就像你把正确答案摆在它面前,它也 “视而不见”,或者说,它 选择错误答案的“惯性” 太大了。 即使让它复盘,它也可能 无法跳出之前的错误逻辑
  • 参数“锁死”了? 这可能跟 随机性设置 或者 模型参数 有关。如果参数比较固定,或者随机性很低 (temperature 参数低),那它每次遇到类似计算,就 很可能“精准”复现同一个错误。 这就像陷入了一个思维定式,出不来了。它不是在“思考”,更像是在执行一个 被错误“固化”了的程序
  • “国内模型更常见”?不一定! 我之前觉得这可能是国内模型更常见的问题,现在想想 不太对。更可能是因为我们 用国内模型更多,或者某些模型 恰好在特定问题上“犯错”的概率大一点点。一旦错了,并且参数不允许它“跳出来”,那它就会 无限复现这个错误
  • 关键在于“可调性”? 国外模型可能因为 参数设置更灵活 (比如允许用户调高 temperature 增加随机性),或者 默认随机性更高,反而 “歪打正着”答对的概率 会高一些,或者至少不会每次都错得一模一样。所以,国内模型可能 最缺的是“应用版”给用户开放参数调节 的功能,让用户能根据情况“激活”一下 AI 的思路。

总而言之: 如果你发现某个 AI 总是、反复地 在同一个地方犯同样的错误,那很可能就是它的 参数或者内部状态“卡壳”了。这时候,换一个模型 (哪怕是同一个基础模型的不同版本,比如“思考版”) 可能是最有效的解决办法。

当然,以上都是 个人瞎琢磨,仅供参考哈! :wink:


:writing_hand: 最后,附上原题,感兴趣的佬友可以试试手:

题目本身超级超级简单!


P.S. 顺便提一句,第一题看图,那个“不思考”的豆包 连图都看错了

15 Likes

这种实在有点普遍,感觉用过的AI都有这种现象。之前用gemini 2.5 pro和claude 3.7来回答一个百八十年前互联网都搜不到信息的冷门软件独特的xml文件做导入,怎么问怎么错,一旦错了就开始错上加错,问了半天放弃了,跑去r1居然一次就对了。很难讲……现在我问什么问题得不到答案就把一线模型挨个儿问一遍,总有能行的,可能这就是赛博风水学吧,八字不合就是问不到 :sweat_smile:

2 Likes

我之前让ai写画图脚本就有这个问题,gemini2.5pro/flash写出来的1000行代码里有缩进问题()
:raised_hand::raised_hand::sob::raised_hand::raised_hand:用V3-0324就是正常的,就是有点小慢

1 Like

我的感觉:

Claude 3.7: 初中生天才编程高手. 但由于年龄小, 它在任务理解, 需求分析上不行. 完全按照指令写代码, 能力发挥取决于给他的指令如何.

Gemini 3.5 pro: 35岁转向管理的大牛. 总是从需求本身开始思考, 口头禅"其实你根本就不需要…, 因为它是这样的…" 让用户感到尴尬同时不得不佩服他的能力. 但是长期远离一线开发, 年龄又大了, 知识量和编程能力退化.

ChatGPT: 印度程序员, 擅于揣摩用户心思, 知识量惊人, 口头禅: “你想要..是吧, 我有一个很好的主意, 怎么样, 要不要我帮你完成”.

2 Likes

所有思考模型都有这个问题:他会仔细地审查用户的问题,然后对其中的他认为的不合理地方进行修改(认为是口误)
但是有时候我们的输入就是经过精心设计的。
这一点改题目的问题在DSR1上有其严重。

还需要进化

物理等理科题目计算题的数据也敢改
那他真的是处心积虑了 :melting_face:

佬友你好像打错字了 尤其
DS不出V4或R2 他的幻觉率永远是第一
或者出来之后更是第一 :rofl:

标点符号太贵,用不起

是这样的
个人语言风格
另一个原因是微软的语音输入默认是没标点没空格 纯文本。

但 2.5Pro 也是思考模型,按题主说应该就不会出现这些问题才是 :thinking:

不能这样理解哦 我只是说普通模型不行的话 思考模型或许可以 因为能力更强 并不是说思考模型都能答出来 还是那句话 AI都有犯错概率
AI界普遍的规律是 常识问题只能答对一半 超弱智问题几乎0% 超难度问题几乎10%

全文全部修改
标题重建
~

1 Like

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。