请问有什么榜单可以直观看大模型真实性能呢?

如题,现在有没有什么榜单可以比较客观看到大模型性能呢?
比如,我想看4o,o1,gemini1026与deepseek R1和其附加蒸馏模型R1 Distill的能力对比,有什么网站可以快捷查询吗

LiveBench
不过榜单啥的,怎么说呢,没有说能做到很客观的
顺带给自己帖子打个广告,如果你想看其他国产模型水平的话:
【长期】给国产模型跑0831版本Livebench测评(2.4更新文心一言4.0) - 搞七捻三 - LINUX DO :grin:

3 个赞

从livebench的对比来看

模型 总分 推理 编程 数学 数据分析 语言 指令跟随
llama-3.3-70b-instruct-turbo 50.16 50.75 36.59 42.24 49.49 39.2 82.67
deepseek-r1-distill-llama-70b 49.66 67.58 50.97 58.11 55.93 23.81 41.55
qwen2.5-32b-instruct[0831] 49.9 40.7 50.4 50.9 51.9 33.7 71.7
deepseek-r1-distill-qwen-32b 42.89 52.25 32.85 59.12 45.41 26.82 40.92

qwen2.5-32b-instruct的分数是8月31号的题库,其他都是1125版本题库分数,8.31版本题库的得分普遍比1125版本高1~2分
也就是说r1-distill的能力普遍比原版低(指令跟随能力大幅下降),但是推理和数学能力大幅提升

1 个赞