R1蒸馏的模型大多比原模型能力要差(六个型号)

哇靠 真是乱花渐欲迷人眼

蒸馏(更小)模型能比原模型更强 那就是开源界的奇迹了 :upside_down_face:

benchmark不是全部,最终还是要以实际效果证道。除了本身效果的下降,现在的推理模型都不适合few shot,但是benchmark很多都是few shot场景的,对比zero shot可能更加公平

1 Like

gemini 有免费的 api 当然会有限制

我说的是硅基的gemma

但是这里指的是蒸馏后的模型和基模型对比,比如说R1-7b和Qwen2.5-7b对比

这样吗喵,懂啦
开源世界就留给大家探索啦
我开开心心玩双子星 :sparkles:

groq的感觉还行

groq的R1蒸馏70B回答超快

佬很强 :+1: 如果有需要欢迎加入我的团队

1 Like

:fearful:佬你们团队是做什么的

但是感觉 写小写大大的好

:fearful:啥……啥意思

插眼tieba_001