【资源分享】论文《s1: Simple test-time scaling》，通过动态分配额外计算资源来提升语言模型在推理阶段的表现。

yeahhe · 2025 年2 月 6 日 18:18

论文简介：
论文《s1: Simple test-time scaling》提出了一种创新性的测试时扩展方法，旨在通过动态分配额外计算资源来提升语言模型在推理阶段的表现。论文中引入了“预算强制”（Budget Forcing）技术，通过在生成过程中插入“等待”（Wait）步骤，迫使模型在测试时充分利用额外资源，从而改善对复杂问题（如数学竞赛题目）的解题能力。实验结果表明，这一方法在某些任务上的表现相较传统推理方式提升高达27%。此外，论文详细讨论了技术原理、实验设计与理论分析，为大规模语言模型在实际应用中的性能优化提供了新的思路和方法。作者团队包括 Niklas Muennighoff、Zitong Yang、Weijia Shi、Xiang Lisa Li、李飞飞、Hannaneh Hajishirzi、Luke Zettlemoyer、Percy Liang、Emmanuel Candès 以及 Tatsunori Hashimoto。

GitHub 仓库

GitHub 仓库链接

论文下载链接

s1-32B模型

s1-32B模型

lueluelue · 2025 年2 月 6 日 18:20

模型在哪能用吗

yeahhe · 2025 年2 月 6 日 18:39

已经有了，不知道有没有部署

yeahhe · 2025 年2 月 6 日 18:50

yeahhe · 2025 年2 月 6 日 18:52

wwow · 2025 年2 月 6 日 19:02

感谢分享

lueluelue · 2025 年2 月 6 日 19:16

hf上有能直接用的了嘛

handsome · 2025 年2 月 7 日 00:37

deepseek冲呀

话题		回复	浏览量
李飞飞团队发表低成本AI训练研究引争议前沿快讯	30	1161	2025 年2 月 7 日
研究员以不到50美元训练出优质推理模型前沿快讯 ChatGPT , 人工智能	12	692	2025 年2 月 6 日
本地可以部署S1了！开发调优 ollama , 人工智能	11	663	2025 年2 月 11 日
打算开个帖子长期记录下一些能检测ai模型数学能力的高难度题目开发调优人工智能	8	211	2025 年2 月 11 日
跑分比O1-Preview还强的1.5B小模型DeepScaleR实测报告开发调优人工智能 , 纯水	13	451	2025 年2 月 14 日

【资源分享】论文《s1: Simple test-time scaling》，通过动态分配额外计算资源来提升语言模型在推理阶段的表现。

GitHub 仓库

论文下载链接

s1-32B模型

相关话题