说 DeepSeek-R1 蒸馏 7B, 8B 效果差, 不是说跟什么 32B, 70B 比
就放在 7B 档位比较, 就跟7B对话模型比, 跟7B原生思维链模型比
参赛选手: 硅基流动的免费模型。
9B 的就不参加了, 免得说成"底大一级压死人"。 除了 R1 的 8B 蒸馏, 其余选手都是 7B。
Marco-o1 可能有些人不熟悉, 这个是从 Qwen2-7B SFT 来的思维链模型, 和从 R1 蒸馏不是一个路数, 具体可以去看硅基模型介绍。
参赛地点: 某个内置了硅基多模型同时对话功能的网页, 不重要。
避免引流嫌疑的折叠区, 万一有想复现的可以点开
GitHub - KwokKwok/Silo: 多模型同时对话、文生图,纯前端。Multi-model simultaneous chat、text-to-image generation, all done through pure front-end (API mode, no server-side needed).
图方便不用配置点开即用, 但是并不好用, 既不能统一清空历史, 也不能统一调温度参数。
考题: 大语言模型, 语言能力是立身之本。 考理解和创作。 考题的选用的参考文本, 是一篇非常好非常经典的文章 《你们赢了,但我却没有输 》
评分标准:
阅读理解:
每答对一题+1分。 格式如果遵循用户要求+1分。 (本来想格式也是每题一分, 但考虑到4道题格式要么全对要么全错, 如果格式分算4分的话, 那么总分的随机误差就太大了)
诗词创作:
写七言绝句, 起码得是 7 个字吧。 连字数都对不齐的, 每句扣 1 分。 对仗每处 +1 分, 押韵每处 +1 分。 这都是诗词最基本的。 别的就不强求了, 意境写不来, 平仄管不着, 唉, 毕竟参数量摆在那里。
评卷:
阅读理解
看起来差不多, 没有拉开差距。 但是下面这个差距就大了。
诗词创作
总结:
所以, 最强的是 …… internlm 2.5 7B? 一匹黑马? 或者随机误差
另一方面, R1 的 7B, 8B 蒸馏版稳稳垫底。 很符合我对 R1 蒸馏版的印象。
这里只测了一次, 只用了两道题, 当然是不严谨不完整的。 再来几次或许数据会有较大出入。 但是我相信得到这个结论还是比较稳妥的: 在一些场景下, R1 的 7B, 8B 蒸馏版, 不见得比 7B 的对话模型更好, 也不见得比 7B 的原生思维链模型更好。
提问:
这些问题我不清楚, 所以向佬友询问。
- r1:7b, r1:8b 做数学题和逻辑推理能力, 是不是真的比其它同世代的 7B 更好? 有哪些场景是这种蒸馏比其它 7B 更好的? (我没有拿 AI 做数学题的需求, 并且到现在还没遇到过 r1:7b, r1:8b 占优的情况)
- 世界上那么多运行
ollama run deepseek-r1:7b
的人里, 到底有没有不是炒作跟风, 而是有切实需求的? 这些人的需求是什么?