研究员以不到50美元训练出优质推理模型

WABC · 2025 年2 月 6 日 03:57

根据上周五发布的新研究论文，斯坦福大学和华盛顿大学的人工智能研究人员能够以不到50美元的云计算积分训练出具备“推理”能力的人工智能模型。该模型名为 s1，在数学和编程能力测试中表现出与 OpenAI 的 o1 和 DeepSeek 的 r1 等顶尖推理模型相似的水平。s1 模型可在 GitHub 上获取，同时还可获取用于训练该模型的数据和代码。s1 团队表示，他们从一个现成基础模型开始，然后通过“蒸馏”对其进行微调。研究人员称，s1 是从谷歌推理模型 Gemini 2.0 Flash Thinking Experimental 中蒸馏出来的。与伯克利分校的研究人员上个月以约450美元的价格创建人工智能推理模型所采用的方法相同。

lking · 2025 年2 月 6 日 04:06

都来蒸馏？不开源的话蒸馏难度就变大了吧？
以后应该会制约蒸馏了。

EFL · 2025 年2 月 6 日 04:13

他用的就是闭源的 Gemini 2.0 Flash Thinking Exp
只要有钱无所谓难度

sketu · 2025 年2 月 6 日 04:14

还有公司从O1 PRO蒸馏的

EFL · 2025 年2 月 6 日 04:15

这是真钱多

randomfuk · 2025 年2 月 6 日 04:17

能直接下载到本地运行吗

nameliu · 2025 年2 月 6 日 04:50

个人理解的论文内容：
过程：

先自行收集并选出最有代表性的1000个数学问题（论文中称为s1k），然后调用gemini think api回答问题。
然后用这些数据微调Qwen2.5-32B-Instruct模型，得到s1-32B。

结果：新模型在数学问题中表现很好。

实验目的：用尽可能少的数学数据微调出具有更强数学能力的模型

可能的其他应用思路：精选某个领域的1000个问题，让gemini think回答，将回答结果喂给一个开源模型，微调出更好的解决这个领域的模型。实际效果未知。

消耗：16个H100一起运行26分钟

slashkkk · 2025 年2 月 6 日 04:53

哪个富哥啊？

slashkkk · 2025 年2 月 6 日 04:55

好比学生只要把教材里的例题给学透了，就不用再布置课后作业了？

handsome · 2025 年2 月 6 日 05:27

50刀这么扯

nameliu · 2025 年2 月 6 日 09:47

考前，老师精选了1000道数学题和解题思路给数学良好的学生

slashkkk · 2025 年2 月 6 日 10:28

水哥，是飞姐团队哟。- -难道又丢出一枚重磅炸弹。

tatsuya · 2025 年2 月 6 日 12:07

Qwen2.5-32B-Instruc 蒸馏 Gemini 2.0 Flash Thinking Experimental

话题		回复	浏览量
李飞飞不到50美元***云***蒸馏了 gemini思考模型号称与o1数代效果类似(相似度0.5% ) 前沿快讯人工智能	48	1406	2025 年2 月 7 日
李飞飞团队发表低成本AI训练研究引争议前沿快讯	30	1161	2025 年2 月 7 日
现在推理模型是不是只有3家？搞七捻三人工智能	14	373	2025 年2 月 3 日
DeepSeek GitHub星数超越OpenAI，大佬揭秘仅用450美元训推理模型前沿快讯	6	310	2025 年2 月 8 日
DeepSeek R1遇难题142次"I give up"，研究还称需增加推理时机控制机制前沿快讯	3	167	2025 年2 月 14 日

研究员以不到50美元训练出优质推理模型

相关话题