快讯,字节发布Seed-Thinking-v1.5

9 Likes

新推理模型?》

是开源模型吗? 好像不是 :smiling_face_with_tear:

看起来是闭源的

我们介绍了 Seed-Thinking-v1.5,它能够在做出反应之前通过思考进行推理,从而提高了在各种基准测试中的表现。Seed-Thinking-v1.5 在 AIME 2024 中的成绩为 86.7,在 Codeforces 中的成绩为 55.0,在 GPQA 中的成绩为 77.3,显示了在 STEM 和编码方面出色的推理能力。除推理任务外,该方法还在不同领域展示了显著的通用性。例如,它在非推理任务上的胜率比 DeepSeek R1 高出 8%,这表明它具有更广泛的适用性。与其他最先进的推理模型相比,Seed-Thinking-v1.5 是一个专家混合模型(MoE),其规模相对较小,只有 20B 激活参数和 200B 总参数。作为评估广义推理的一部分,我们开发了两个内部基准,即 BeyondAIME 和 Codeforces,这两个基准都将公开发布,以支持未来的研究。

又一个标称打R1的模型?

我来看看

不就豆包1.5嘛


看样子比R1强不少,只有 SWE-bench 略低点。 :bili_001:

1 Like

wow,这是要对标gemini 2.5pro?
(虽然只有ARC-AGI更高就是了

等大佬测试!

大佬出手吧

Seed-Thinking-v1.5的强化学习是混合了Verifiable和General data的,既有类似于R1那种稀疏奖励信号也有value model。记得之前有看过有论文说豆包的训练数据和GPT区别比较大(相比Deepseek V3),如果Seed-Thinking-v1.5也是在类似的数据集上构建的话,感觉也挺不错的。

1 Like

坐等火山上API了,实际用用看看感觉,期待! :raised_hands:

蹲蹲测试

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。