如题,现在有没有什么榜单可以比较客观看到大模型性能呢?
比如,我想看4o,o1,gemini1026与deepseek R1和其附加蒸馏模型R1 Distill的能力对比,有什么网站可以快捷查询吗
LiveBench吧
不过榜单啥的,怎么说呢,没有说能做到很客观的
顺带给自己帖子打个广告,如果你想看其他国产模型水平的话:
【长期】给国产模型跑0831版本Livebench测评(2.4更新文心一言4.0) - 搞七捻三 - LINUX DO
3 个赞
从livebench的对比来看
模型 | 总分 | 推理 | 编程 | 数学 | 数据分析 | 语言 | 指令跟随 |
---|---|---|---|---|---|---|---|
llama-3.3-70b-instruct-turbo | 50.16 | 50.75 | 36.59 | 42.24 | 49.49 | 39.2 | 82.67 |
deepseek-r1-distill-llama-70b | 49.66 | 67.58 | 50.97 | 58.11 | 55.93 | 23.81 | 41.55 |
qwen2.5-32b-instruct[0831] | 49.9 | 40.7 | 50.4 | 50.9 | 51.9 | 33.7 | 71.7 |
deepseek-r1-distill-qwen-32b | 42.89 | 52.25 | 32.85 | 59.12 | 45.41 | 26.82 | 40.92 |
qwen2.5-32b-instruct的分数是8月31号的题库,其他都是1125版本题库分数,8.31版本题库的得分普遍比1125版本高1~2分
也就是说r1-distill的能力普遍比原版低(指令跟随能力大幅下降),但是推理和数学能力大幅提升
1 个赞