R1蒸馏的模型大多比原模型能力要差(六个型号)

一般在1125版本得分基础上加上1~2分就是0831版得分,之后32b和70b我也会再跑一遍0831版
R1蒸馏的1.5b/7b/8b/14b模型指令跟随能力提升的同时,其他能力大幅下降
32b/70b参数则是反过来的
8b版本是唯一一个平均分上升的(但也是因为指令跟随能力提升了特别多)

模型 总分 推理 编程 数学 数据分析 语言 指令跟随
llama-3.3-70b-instruct-turbo[1125] 50.16 50.75 36.59 42.24 49.49 39.2 82.67
deepseek-r1-distill-llama-70b[1125] 49.66 67.58 50.97 58.11 55.93 23.81 41.55
模型 总分 推理 编程 数学 数据分析 语言 指令跟随
qwen2.5-32b-instruct 49.9 40.7 50.4 50.9 51.9 33.7 71.7
deepseek-r1-distill-qwen-32b 42.3 47.3 20.9 31.5 56.7 22.7 74.7
模型 总分 推理 编程 数学 数据分析 语言 指令跟随
qwen2.5-14b-instruct 44.3 39.3 50.4 45.9 41 22.1 67.1
deepseek-r1-distill-qwen-14b 39.3 45.3 18 31.5 47 19.8 74.3
模型 总分 推理 编程 数学 数据分析 语言 指令跟随
meta-llama-3.1-8b-instruct-turbo 26.7 15.3 19.7 16.6 32.2 20.1 56.5
deepseek-r1-distill-llama-8b 29.5 14 16.1 27.4 35.7 12.6 71.1
模型 总分 推理 编程 数学 数据分析 语言 指令跟随
qwen2.5-7b-instruct-turbo 35.7 30.7 37.9 38.2 32.8 14.8 59.8
deepseek-r1-distill-qwen-7b 28.3 16.7 14.5 28.9 31.6 9.7 68.5
模型 总分 推理 编程 数学 数据分析 语言 指令跟随
qwen2.5-1.5b-instruct 18.2 15.3 10.7 22.1 18.5 3.3 39
deepseek-r1-distill-qwen-1.5b 16.9 4 7.1 23.2 12.9 2.9 51.1
33 Likes

我擦, 原来被微调之后的分数反而还下降了

4 Likes

R1 的蒸馏模型基本都属于不能用的的水平 你还不如去薅 gemini 的羊毛

2 Likes

从分数上来看只有70b还可以,除了指令跟随能力下降明显,其他还是有不小提升的,感觉是参数量导致的

1 Like

70b 4b 量化实操起来只适合翻译 本地部署真的没什么价值

4 Likes

看来跑翻译还是大道至简

2 Likes

是的~zsbd

1 Like

试了下蒸馏后的小模型跑翻译,简直是灾难级表现

1 Like

更新完了

1 Like

好帖子,再也不盲目追求思维链了
原来R1的Cot对蒸馏模型(小参数模型)的提升等于没有提升 :sweat_smile:
主要还是看参数量

跑翻译的话哪家模型最好呢:thinking:

同问,有了踢我一下

1 Like

不看价格 o1 / Claude 3.5 Sonnet
否则 chatgpt-4o-latest(不是 gpt-4o)
c4olatest 在日语、韩语方面优势很大

1 Like

佬,本地部署的模型,那个翻译强?

qwen-2.5-max, deepseek-r1, deepseek-v3,meta-llama-3.1-405b

实际上本地部署模型真没必要,能力弱了很多,405b的模型你不可能在本地跑得量化吧

1 Like

啊这,是这样的吗

确实小参数智力不够

不付费的话硅基的qwen2.5或gemma吧,选gemma主要是敏感词少一些

2 Likes

我用的从groq薅的deepseek-r1-distill-llama-70b,感觉有点笨

我看油管上有博主部署。一直再纠结要不要本地部署671b,2000$那个。