研究员以不到50美元训练出优质推理模型

根据上周五发布的新研究论文,斯坦福大学和华盛顿大学的人工智能研究人员能够以不到50美元的云计算积分训练出具备“推理”能力的人工智能模型。该模型名为 s1,在数学和编程能力测试中表现出与 OpenAI 的 o1 和 DeepSeek 的 r1 等顶尖推理模型相似的水平。s1 模型可在 GitHub 上获取,同时还可获取用于训练该模型的数据和代码。s1 团队表示,他们从一个现成基础模型开始,然后通过“蒸馏”对其进行微调。研究人员称,s1 是从谷歌推理模型 Gemini 2.0 Flash Thinking Experimental 中蒸馏出来的。与伯克利分校的研究人员上个月以约450美元的价格创建人工智能推理模型所采用的方法相同。

4 个赞

都来蒸馏?不开源的话蒸馏难度就变大了吧?
以后应该会制约蒸馏了。

他用的就是闭源的 Gemini 2.0 Flash Thinking Exp
只要有钱无所谓难度

1 个赞

还有公司从O1 PRO蒸馏的

这是真钱多

能直接下载到本地运行吗

个人理解的论文内容:
过程:

  1. 先自行收集并选出最有代表性的1000个数学问题(论文中称为s1k),然后调用gemini think api回答问题。
  2. 然后用这些数据微调Qwen2.5-32B-Instruct模型,得到s1-32B。

结果:新模型在数学问题中表现很好。

实验目的:用尽可能少的数学数据微调出具有更强数学能力的模型

可能的其他应用思路:精选某个领域的1000个问题,让gemini think回答,将回答结果喂给一个开源模型,微调出更好的解决这个领域的模型。实际效果未知。

消耗:16个H100一起运行26分钟

8 个赞

哪个富哥啊?

好比学生只要把教材里的例题给学透了,就不用再布置课后作业了?

50刀这么扯

考前,老师精选了1000道数学题和解题思路给数学良好的学生


水哥,是飞姐团队哟。- -难道又丢出一枚重磅炸弹。

1 个赞

Qwen2.5-32B-Instruc 蒸馏 Gemini 2.0 Flash Thinking Experimental