掀桌子时刻:1.5B模型数学推理性能超过O1-Preview了!

DeepScaleR

:rocket: 普及大型语言模型的强化学习 :star2:

DeepScaleR-1.5B-Preview 是一个基于 DeepSeek-R1-Distilled-Qwen-1.5B 微调的语言模型,采用分布式强化学习(RL)技术,能够扩展到更长的上下文长度。该模型在 AIME 2024 上实现了 43.1% 的 Pass@1 准确率,相较于基础模型的 28.8% 提升了 15%,并且仅凭 1.5B 参数就超越了 OpenAI 的 O1-Preview 性能表现。

模型 AIME 2024 MATH 500 AMC 2023 Minerva Math
DeepScaleR-1.5B-Preview 43.1 87.8 73.6 30.2
DeepSeek-R1-Distill-Qwen-1.5B 28.8 82.8 62.9 26.5
O1-Preview 40.0 81.4 - -

部署命令

ollama run deepscaler (3.6G)
ollama run deepscaler:1.5b-preview-q8_0 (1.9G)
ollama run deepscaler:1.5b-preview-q4_K_M (1.1G)

:warning:注意

默认拉取的是fp16版本,占3.6GB,和之前的7b对硬件的要求差不多,如果设备性能不够,建议拉取q8_0/q4_K_M量化版本。

28 个赞

啊???

1 个赞

ollama或huggingface上链接是多少,我部署试试。

2 个赞

估计是这个

2 个赞

数学推理超过 O1-Preview

2 个赞

democratize这样翻译感觉怪怪的……

2 个赞

机器翻译,确实比较僵硬。

2 个赞
2 个赞

训练的数据就是数学问题:

9 个赞

看到了。谢谢。只是专注数学啊。看来DeepSeek开源后各种专业领域模型finetune后大有可为。

5 个赞

大众化感觉好一些……微软翻译之间翻成“普及”了

2 个赞

1.5b这么强

2 个赞

其实O1P的两大强项,一个就被人家小规模模型突破了,另外一个就是编码了

2 个赞

有人测过高考数学题,这种特化是不是可以拿来当家教了

4 个赞

DS开源确实推动了开源社区的发展

2 个赞

:bili_040: 好像没有过小模型组装的时代…… :thinking:

1 个赞

数学有优质的人工标记数据集,方便用小模型fine-tune突破。编码似乎没有类似高质量数据集。

3 个赞

等开源社区继续发力,众人拾柴火焰高

1 个赞

纯RF训练可以得出正确结果,但推理过程的可理解性从原理上说是无法保证的。这种fine-tune小模型我判断应该不适合做家教。

4 个赞

感觉自己部署的话,这种特化的小模型才是最有意义的。