新研究揭示 QwQ-32B-Preview、DeepSeek-R1-671B 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

实验结果表明,所有测试的类 o1 模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。

在 MATH500-Hard 和 GPQA Diamond 数据集上,性能更优的 DeepSeek-R1-671B 模型在取得更高准确率的同时,其 UT 得分也更高,表明错误回答中存在更多思维不足。

这意味着,尽管模型整体能力更强,但在不确定时可能生成更长但效率较低的推理过程,可能是因为模型探索了多个错误的推理路径,却未能有效收敛到正确解答。

相反,在 AIME2024 测试集中,DeepSeek-R1-671B 模型不仅取得了更高的准确率,还表现出较低的 UT 得分,反映出较少的思维不足和更高的 token 效率。

这表明模型在该任务中,即使未得出正确答案,其推理过程依然保持专注和高效,团队表示这可能是因为模型与 AIME2024 所要求的问题类型和推理过程更好地对齐。 新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的 - IT之家

2 个赞

大道至简?

1 个赞

所以什么时候能放过ds

1 个赞

被拷打了

看来这就是把思维链当成卖点了。

头一回看到如此令我高血压的中文,这东西是机翻过来的吗,完全不像人写出来的文字吧

5 个赞

有点逻辑混乱

感觉像aigc

我刚才问了个 草莓的英语单词有多少个字母R

结果 思考过程一大长串,最后终于答对了

你这个新ID…
我在想你闻到的时候的表情
laughing

1 个赞

跟写代码一样,一旦前几次没写对,后面再怎么问基本都是错的

跟我最初的测试结果较为吻合。思考的时间越长,结果反而越差。

R1还是lite的时候这个佬发的

说的没问题啊,R1控制的比R1 lite preview好太多了

我的意思是他们早就意识到问题了

1 个赞