请问有什么榜单可以直观看大模型真实性能呢？

luozi3 · 2025 年2 月 4 日 09:09

如题，现在有没有什么榜单可以比较客观看到大模型性能呢？
比如，我想看4o，o1，gemini1026与deepseek R1和其附加蒸馏模型R1 Distill的能力对比，有什么网站可以快捷查询吗

homeworkkun · 2025 年2 月 4 日 09:11

LiveBench吧
不过榜单啥的，怎么说呢，没有说能做到很客观的
顺带给自己帖子打个广告，如果你想看其他国产模型水平的话：
【长期】给国产模型跑0831版本Livebench测评（2.4更新文心一言4.0） - 搞七捻三 - LINUX DO

homeworkkun · 2025 年2 月 4 日 09:19

从livebench的对比来看

qwen2.5-32b-instruct的分数是8月31号的题库，其他都是1125版本题库分数，8.31版本题库的得分普遍比1125版本高1~2分
也就是说r1-distill的能力普遍比原版低（指令跟随能力大幅下降），但是推理和数学能力大幅提升

话题		回复	浏览量
我想了解现在的模型各种性能比较图，有没有直观一点的？搞七捻三快问快答	2	549	2024 年12 月 9 日
兄弟们想了解一下最新的大模型情况搞七捻三人工智能	6	272	2025 年1 月 28 日
普通非专业用户，可以通过哪些问题测试大模型的综合能力？搞七捻三人工智能	2	102	2025 年1 月 23 日
请大家评价一下gemini的最新模型，排行榜一是实力吗？搞七捻三人工智能 , 快问快答	20	635	2025 年1 月 31 日
问问一些没怎么用过的模型的测评开发调优人工智能 , 快问快答	5	221	2024 年11 月 29 日