李飞飞团队发表低成本AI训练研究引争议

evanz · 2025 年2 月 6 日 16:05

李飞飞团队近日发表论文称以50美元训练出推理模型s1，性能接近OpenAI等顶尖产品。经调查，该模型实为基于阿里云通义千问(Qwen)模型的微调成果，训练样本仅1000条。

业内专家指出，s1模型实为在通义千问基座模型上的微调成果，该研究利用了通义模型已具备的强大推理能力，新增训练数据仅起优化作用。业内专家强调，这与从零训练全新模型有本质区别。

阿里云证实，该团队以阿里通义千问Qwen2.5-32B-Instruct开源模型为底座，在16块H100GPU上监督微调26分钟，训练出新模型s1-32B，取得了与OpenAI的o1和DeepSeek的R1等尖端推理模型数学及编码能力相当的效果，甚至在竞赛数学问题上的表现比o1-preview高出27%。

金融界1 | 金融界2

6512345 · 2025 年2 月 6 日 16:05

www前排看戏

zhong_little · 2025 年2 月 6 日 16:06

意思微调当训练？学术也搞震惊体

wwow · 2025 年2 月 6 日 16:32

前排围观

baby · 2025 年2 月 6 日 16:33

标题党，训练了个融合lora的模型，当做大模型

wwow · 2025 年2 月 6 日 16:33

原来如此

EDWINCHENC · 2025 年2 月 6 日 16:36

是不是太想火了

baipiaodang · 2025 年2 月 6 日 16:42

国外也搞标题党

handsome · 2025 年2 月 7 日 00:31

没意思的。

liuxixigua · 2025 年2 月 7 日 01:20

标题党而已，但是对用户来说只要更强，管它如何训练的

wren · 2025 年2 月 7 日 01:22

哪个团队我记得不是研究3D算法什么的有什么进展了.

leowyzhang · 2025 年2 月 7 日 01:25

50美元要是能成的话，那岂不是人手一个

zhong_little · 2025 年2 月 7 日 02:21

分享一个解读，很遗憾这则信息传播偏差上主要还是国内营销号的添油加醋

https://www.zhihu.com/question/11467407313/answer/94584520134

eugeneL · 2025 年2 月 7 日 02:24

thinking，就是让模型prefer长输出的同时提高逻辑问题的正确率，只要做到这一点都算训练吧

Lush · 2025 年2 月 7 日 02:24

微调确实可以人手一个

eugeneL · 2025 年2 月 7 日 02:25

给旧模型喂一些思考样本都能提高一些任务的能力

randomfuk · 2025 年2 月 7 日 02:27

在 671B的样本面前，1000 条样本，233

Beronita · 2025 年2 月 7 日 02:29

主要是Qwen开源哈哈哈。

Beronita · 2025 年2 月 7 日 02:30

关键是现在很多团队都搞出来什么1000条高质量数据进行微调，然后花了几个美元，效果极好。问题是这玩意发论文可以，实际应用肯定不行啊

zhong_little · 2025 年2 月 7 日 02:30

看你要不要区分“微调”的概念了

话题		回复	浏览量
研究员以不到50美元训练出优质推理模型前沿快讯 ChatGPT , 人工智能	12	692	2025 年2 月 6 日
李飞飞不到50美元***云***蒸馏了 gemini思考模型号称与o1数代效果类似(相似度0.5% ) 前沿快讯人工智能	48	1406	2025 年2 月 7 日
llama怎么样了？也没落了吗？资源荟萃人工智能	39	1156	2025 年2 月 10 日
Deepseek 的蒸馏模型如何去掉思考过程开发调优 ChatGPT , DeepSeek , 人工智能 , 快问快答	33	1041	2025 年2 月 11 日
【资源分享】论文《s1: Simple test-time scaling》，通过动态分配额外计算资源来提升语言模型在推理阶段的表现。资源荟萃人工智能	7	198	2025 年2 月 7 日

李飞飞团队发表低成本AI训练研究引争议

相关话题