一般在1125版本得分基础上加上1~2分就是0831版得分,之后32b和70b我也会再跑一遍0831版
R1蒸馏的1.5b/7b/8b/14b模型指令跟随能力提升的同时,其他能力大幅下降
32b/70b参数则是反过来的
8b版本是唯一一个平均分上升的(但也是因为指令跟随能力提升了特别多)
模型 |
总分 |
推理 |
编程 |
数学 |
数据分析 |
语言 |
指令跟随 |
llama-3.3-70b-instruct-turbo[1125] |
50.16 |
50.75 |
36.59 |
42.24 |
49.49 |
39.2 |
82.67 |
deepseek-r1-distill-llama-70b[1125] |
49.66 |
67.58 |
50.97 |
58.11 |
55.93 |
23.81 |
41.55 |
模型 |
总分 |
推理 |
编程 |
数学 |
数据分析 |
语言 |
指令跟随 |
qwen2.5-32b-instruct |
49.9 |
40.7 |
50.4 |
50.9 |
51.9 |
33.7 |
71.7 |
deepseek-r1-distill-qwen-32b |
42.3 |
47.3 |
20.9 |
31.5 |
56.7 |
22.7 |
74.7 |
模型 |
总分 |
推理 |
编程 |
数学 |
数据分析 |
语言 |
指令跟随 |
qwen2.5-14b-instruct |
44.3 |
39.3 |
50.4 |
45.9 |
41 |
22.1 |
67.1 |
deepseek-r1-distill-qwen-14b |
39.3 |
45.3 |
18 |
31.5 |
47 |
19.8 |
74.3 |
模型 |
总分 |
推理 |
编程 |
数学 |
数据分析 |
语言 |
指令跟随 |
meta-llama-3.1-8b-instruct-turbo |
26.7 |
15.3 |
19.7 |
16.6 |
32.2 |
20.1 |
56.5 |
deepseek-r1-distill-llama-8b |
29.5 |
14 |
16.1 |
27.4 |
35.7 |
12.6 |
71.1 |
模型 |
总分 |
推理 |
编程 |
数学 |
数据分析 |
语言 |
指令跟随 |
qwen2.5-7b-instruct-turbo |
35.7 |
30.7 |
37.9 |
38.2 |
32.8 |
14.8 |
59.8 |
deepseek-r1-distill-qwen-7b |
28.3 |
16.7 |
14.5 |
28.9 |
31.6 |
9.7 |
68.5 |
模型 |
总分 |
推理 |
编程 |
数学 |
数据分析 |
语言 |
指令跟随 |
qwen2.5-1.5b-instruct |
18.2 |
15.3 |
10.7 |
22.1 |
18.5 |
3.3 |
39 |
deepseek-r1-distill-qwen-1.5b |
16.9 |
4 |
7.1 |
23.2 |
12.9 |
2.9 |
51.1 |
33 Likes
Taich
3
R1 的蒸馏模型基本都属于不能用的的水平 你还不如去薅 gemini 的羊毛
2 Likes
从分数上来看只有70b还可以,除了指令跟随能力下降明显,其他还是有不小提升的,感觉是参数量导致的
1 Like
Taich
5
70b 4b 量化实操起来只适合翻译 本地部署真的没什么价值
4 Likes
nameliu
(nameliu)
10
好帖子,再也不盲目追求思维链了
原来R1的Cot对蒸馏模型(小参数模型)的提升等于没有提升 
主要还是看参数量
EFL
(雲 くもちゃん Ultra)
13
不看价格 o1 / Claude 3.5 Sonnet
否则 chatgpt-4o-latest(不是 gpt-4o)
c4olatest 在日语、韩语方面优势很大
1 Like
EFL
(雲 くもちゃん Ultra)
15
qwen-2.5-max, deepseek-r1, deepseek-v3,meta-llama-3.1-405b
实际上本地部署模型真没必要,能力弱了很多,405b的模型你不可能在本地跑得量化吧
1 Like
ElonMusk
(gep)
18
不付费的话硅基的qwen2.5或gemma吧,选gemma主要是敏感词少一些
2 Likes
我用的从groq薅的deepseek-r1-distill-llama-70b,感觉有点笨
laikey.lau
(laikey.lau)
20
我看油管上有博主部署。一直再纠结要不要本地部署671b,2000$那个。