DeepScaleR
普及大型语言模型的强化学习
DeepScaleR-1.5B-Preview 是一个基于 DeepSeek-R1-Distilled-Qwen-1.5B 微调的语言模型,采用分布式强化学习(RL)技术,能够扩展到更长的上下文长度。该模型在 AIME 2024 上实现了 43.1% 的 Pass@1 准确率,相较于基础模型的 28.8% 提升了 15%,并且仅凭 1.5B 参数就超越了 OpenAI 的 O1-Preview 性能表现。
模型 | AIME 2024 | MATH 500 | AMC 2023 | Minerva Math |
---|---|---|---|---|
DeepScaleR-1.5B-Preview | 43.1 | 87.8 | 73.6 | 30.2 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.8 | 82.8 | 62.9 | 26.5 |
O1-Preview | 40.0 | 81.4 | - | - |
部署命令
ollama run deepscaler
(3.6G)
ollama run deepscaler:1.5b-preview-q8_0
(1.9G)
ollama run deepscaler:1.5b-preview-q4_K_M
(1.1G)
注意
默认拉取的是fp16版本,占3.6GB,和之前的7b对硬件的要求差不多,如果设备性能不够,建议拉取q8_0/q4_K_M量化版本。