DeepSeek-R1-Distill 7、8B 两兄弟, 对决 7B 对话模型和 7B 非蒸馏长思考模型, 结果竟然……

说 DeepSeek-R1 蒸馏 7B, 8B 效果差, 不是说跟什么 32B, 70B 比
就放在 7B 档位比较, 就跟7B对话模型比, 跟7B原生思维链模型比

参赛选手: 硅基流动的免费模型。
9B 的就不参加了, 免得说成"底大一级压死人"。 除了 R1 的 8B 蒸馏, 其余选手都是 7B。
Marco-o1 可能有些人不熟悉, 这个是从 Qwen2-7B SFT 来的思维链模型, 和从 R1 蒸馏不是一个路数, 具体可以去看硅基模型介绍。

参赛地点: 某个内置了硅基多模型同时对话功能的网页, 不重要。

避免引流嫌疑的折叠区, 万一有想复现的可以点开

GitHub - KwokKwok/Silo: 多模型同时对话、文生图,纯前端。Multi-model simultaneous chat、text-to-image generation, all done through pure front-end (API mode, no server-side needed).
图方便不用配置点开即用, 但是并不好用, 既不能统一清空历史, 也不能统一调温度参数。

考题: 大语言模型, 语言能力是立身之本。 考理解和创作。 考题的选用的参考文本, 是一篇非常好非常经典的文章 《你们赢了,但我却没有输

评分标准:

阅读理解:
每答对一题+1分。 格式如果遵循用户要求+1分。 (本来想格式也是每题一分, 但考虑到4道题格式要么全对要么全错, 如果格式分算4分的话, 那么总分的随机误差就太大了)

诗词创作:
写七言绝句, 起码得是 7 个字吧。 连字数都对不齐的, 每句扣 1 分。 对仗每处 +1 分, 押韵每处 +1 分。 这都是诗词最基本的。 别的就不强求了, 意境写不来, 平仄管不着, 唉, 毕竟参数量摆在那里。

评卷:

阅读理解

看起来差不多, 没有拉开差距。 但是下面这个差距就大了。

诗词创作

总结:
所以, 最强的是 …… internlm 2.5 7B? 一匹黑马? 或者随机误差
另一方面, R1 的 7B, 8B 蒸馏版稳稳垫底。 很符合我对 R1 蒸馏版的印象。

这里只测了一次, 只用了两道题, 当然是不严谨不完整的。 再来几次或许数据会有较大出入。 但是我相信得到这个结论还是比较稳妥的: 在一些场景下, R1 的 7B, 8B 蒸馏版, 不见得比 7B 的对话模型更好, 也不见得比 7B 的原生思维链模型更好

提问:
这些问题我不清楚, 所以向佬友询问。

  1. r1:7b, r1:8b 做数学题和逻辑推理能力, 是不是真的比其它同世代的 7B 更好? 有哪些场景是这种蒸馏比其它 7B 更好的? (我没有拿 AI 做数学题的需求, 并且到现在还没遇到过 r1:7b, r1:8b 占优的情况)
  2. 世界上那么多运行 ollama run deepseek-r1:7b 的人里, 到底有没有不是炒作跟风, 而是有切实需求的? 这些人的需求是什么?
5 Likes

R1 14b 以下的都是用 qwen2.5math 作为基座蒸馏的,文学能力当然差,数学和推理还可以的

2 Likes

不对, 8B 版的基座是 llama3.1-8b

太好了,早就想看这样的同一个量级的llm对比了

希望能再增加对于数学题和编程能力的测试

1 Like

我只想知道各种乱七八糟的模型 该如何区分 太乱了

我试过一个数学题, 小学经典的水池接水放水, 结果只有 R1 8B 做错了。 因为拉不开差距, 就没试了。
希望有热佬提供有品位的题目, 要能拉得开差距的, 或者你们测过了截图回复发来, 我再搬到主贴上。

1 Like

太好了,其实我也想知道同一个量级的结果
千问和meta的差距

这个测试好玩!

对的,但 llama 小参数模型的中文不敢恭维

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。