9 Likes
新推理模型?》
是开源模型吗? 好像不是
看起来是闭源的
我们介绍了 Seed-Thinking-v1.5,它能够在做出反应之前通过思考进行推理,从而提高了在各种基准测试中的表现。Seed-Thinking-v1.5 在 AIME 2024 中的成绩为 86.7,在 Codeforces 中的成绩为 55.0,在 GPQA 中的成绩为 77.3,显示了在 STEM 和编码方面出色的推理能力。除推理任务外,该方法还在不同领域展示了显著的通用性。例如,它在非推理任务上的胜率比 DeepSeek R1 高出 8%,这表明它具有更广泛的适用性。与其他最先进的推理模型相比,Seed-Thinking-v1.5 是一个专家混合模型(MoE),其规模相对较小,只有 20B 激活参数和 200B 总参数。作为评估广义推理的一部分,我们开发了两个内部基准,即 BeyondAIME 和 Codeforces,这两个基准都将公开发布,以支持未来的研究。
又一个标称打R1的模型?
我来看看
不就豆包1.5嘛
wow,这是要对标gemini 2.5pro?
(虽然只有ARC-AGI更高就是了
等大佬测试!
大佬出手吧
Seed-Thinking-v1.5的强化学习是混合了Verifiable和General data的,既有类似于R1那种稀疏奖励信号也有value model。记得之前有看过有论文说豆包的训练数据和GPT区别比较大(相比Deepseek V3),如果Seed-Thinking-v1.5也是在类似的数据集上构建的话,感觉也挺不错的。
1 Like
坐等火山上API了,实际用用看看感觉,期待!
蹲蹲测试
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。