李飞飞团队发表低成本AI训练研究引争议

李飞飞团队近日发表论文称以50美元训练出推理模型s1,性能接近OpenAI等顶尖产品。经调查,该模型实为基于阿里云通义千问(Qwen)模型的微调成果,训练样本仅1000条。

业内专家指出,s1模型实为在通义千问基座模型上的微调成果,该研究利用了通义模型已具备的强大推理能力,新增训练数据仅起优化作用。业内专家强调,这与从零训练全新模型有本质区别。

阿里云证实,该团队以阿里通义千问Qwen2.5-32B-Instruct开源模型为底座,在16块H100GPU上监督微调26分钟,训练出新模型s1-32B,取得了与OpenAI的o1和DeepSeek的R1等尖端推理模型数学及编码能力相当的效果,甚至在竞赛数学问题上的表现比o1-preview高出27%。

金融界1 | 金融界2

17 个赞

www前排看戏

意思微调当训练?学术也搞震惊体

3 个赞

前排围观

标题党,训练了个融合lora的模型,当做大模型

2 个赞

原来如此

是不是太想火了

1 个赞

国外也搞标题党

没意思的。

标题党而已,但是对用户来说只要更强,管它如何训练的

哪个团队我记得不是研究3D算法什么的有什么进展了.

50美元要是能成的话,那岂不是人手一个 :rofl:

分享一个解读,很遗憾这则信息传播偏差上主要还是国内营销号的添油加醋

https://www.zhihu.com/question/11467407313/answer/94584520134

4 个赞

thinking,就是让模型prefer长输出的同时提高逻辑问题的正确率,只要做到这一点都算训练吧

微调确实可以人手一个 :joy:

给旧模型喂一些思考样本都能提高一些任务的能力

在 671B的样本面前,1000 条样本,233

主要是Qwen开源哈哈哈。

关键是现在很多团队都搞出来什么1000条高质量数据进行微调,然后花了几个美元,效果极好。问题是这玩意发论文可以,实际应用肯定不行啊

看你要不要区分“微调”的概念了