[2.0更新]终极LLM性能排行榜-综合了 28 个顶尖基准测试


分数后面的"()"为统计了多少个基准的成绩

制作来源于:https://x.com/scaling01/status/1919217718420508782

作者更新的算法:
取消了之前的平均分算法,转而使用Glicko-2评级系统.
Glicko-2 评级系统介绍:

总结

这是一种常用于棋类游戏(如国际象棋)的评级系统,用于评估参与者的相对技能水平。
与简单的胜负统计或平均分不同,Glicko-2 会考虑评级的不确定性 (RD - Rating Deviation) 和评级的波动性 (σ - Volatility)。这意味着:
RD (Rating Deviation):衡量一个模型评分的可靠性。RD 值越高,表示系统对该模型真实水平的把握越不确定(可能因为参与的基准测试较少或结果波动大)。随着模型参与更多基准测试,RD 值会下降。
σ (Volatility):衡量模型表现的稳定性。波动性高的模型可能在不同基准测试中表现差异很大。
该系统会根据模型在各个基准测试中与其他模型的“对战”结果来更新每个模型的评分、RD 和 σ。

举例说明(Gemini生成)

总结

把它想象成一个更聪明的“老师”给学生(AI 模型)打分的过程:

  1. 看起点: 每个模型刚来时都有个基础分(比如 1500 分)。 老师对新模型的分数不太确定(RD 比较高)。 老师假设新模型表现还算稳定(Volatility 比较低)。
  2. 看表现(“考试”/基准测试): 模型和其他模型在各种测试里“比赛”。 老师不仅看模型考了多少分,更看重它跟谁比,结果超出了预期多少。
  3. 智能调分: 超常发挥? 如果一个低分模型赢了高分模型(就像一个普通学生考赢了学霸),老师会觉得“哇,进步很大!”,给它加很多分。同时,老师可能觉得这个学生潜力/状态波动大,会稍微调高它的“不稳定性” (Volatility)。 表现符合预期? 如果高分赢了低分,或者分数差不多的打平了,老师觉得“嗯,正常”,分数调整就比较小。 意外失手? 如果高分模型输给了低分模型,老师会扣比较多分,也可能调高它的“不稳定性”。 对手的可信度? 跟一个分数很稳定、很可信的对手(RD 低)比赛,结果对你分数的影响更大。跟一个分数很不确定的新对手(RD 高)比赛,结果影响就小一些。
  4. 更新状态: 每次“考试”后,模型会得到一个新分数 (New Rating)。 老师对这个新分数的把握更大了(RD 通常会变小,因为有了更多表现数据)。 模型的表现稳定性 (New Volatility) 也可能根据最近的表现被重新评估。

总结: Glicko-2 就是通过看模型与不同对手的“比赛”结果是否超出预期,来动态调整它的评分、评分的可信度(RD)和表现稳定性(Volatility)。赢了强敌加分多,输给弱旅扣分多,结果越意外,调整幅度越大。

模型初始基础分是 1500;
初始评分偏差 (INITIAL_RD): 350
初始波动率 (INITIAL_VOL / σ): 0.06
TAU (τ): 0.5

现在模型必须至少在 10 个基准测试中出现才能上榜

更新:
28个基准如下

SimpleBench;
SOLO-Bench;
AidanBench; 
SEAL MultiChallenge; 
LMArena (带风格控制);
LiveBench; 
ARC-AGI-1; 
Thematic Generalization; 
Confabulations and Elimination Game by LechMazur;
EQBench (长篇写作与创意写作);
Fiction-Live Bench (按所有上下文长度的最高平均得分): 
MC-Bench: 
TrackingAI - IQ Bench (按模型的最佳得分,无论是否包含视觉能力): 
Dubesor LLM: 
Balrog-AI: 
Misguided Attention: 
Snake-Bench: 
SmolAgents LLM:
 Context-Arena: 
OpenCompass (CompassBench): 
Aider-Polyglot-Coding: 
WebDev-Arena: 
WeirdML: 
MathArena (总体): 
Galileo Agent: 
Simple-Evals:

作者补充到:

But I think Gemini 2.5 Flash Thinking, Grok 3 mini and GPT-4.1 might be slightly overrated here.
2.5Flash,Grok 3 mini , GPT-4.1的分数总体虚高,其余还好

79 Likes

通用语言模型领域缺个绘画的基准排行榜

2 Likes

有参考意义,跟体感符合

2 Likes

感觉gemini的数学很差

1 Like

啊Gemini数学肯定比o3强的,反正我实测是这样的

3 Likes

和实际体验大致相同

gemini无敌

o4/o3-mini 高于 o4/o3-mini (high)

Qwen3 缺少启用推理的分数。

1 Like

但是我测的不一样呢,我对比的是o3 mini high(o4 mini和o3非常不稳定),数学题就没错过,gemini问竹竿问题,和高数都经常错

补个之前的测试


这是刚测的gemini ,算了五分钟算错了,不知道他的思路是什么,有点太长了↓

感觉gemini算是暴力破解,但是做错了?虽然我不知道o3 mini high怎么做到的,刷题吗?

放下题目

已知函数

$$f(x) = e^x + ax^2 - x.$$

(1) 当$a = 1$时,讨论$f(x)$的单调性;

(2) 当$x \geq 0$时,$f(x) \geq \frac{1}{2}x^3 + 1$,求$a$的取值范围。
3 Likes

Gemini名副其实 主观体验下来也是最强的一档 无论是理解人 还是 能力 水平 可用性
就是ai都不怎么会写剧情,写剧本,文字创作感觉不如R1

1 Like

可能是官网 o3 调用了外部工具?不然 llm 天生不擅长计算。

api和官网都算的非常准确(但是我看了一眼他的过程,有点穷举蒙对的意思,因为高考题取的是x=2那点,代入回去就可以算出正确答案),但是gemini不知道叽里咕噜在算什么

o3 o4 mini high 都不能完美每次作对这道题了

还有经典的竹竿问题,我感觉gemini也是经常做错的,不知道为什么,无语

我自己用下来,其实从o1开始,即使没有外部工具,oai家的模型已经能算对长过程数值计算了,精度误差甚至能到小数点后几位(虽然我没测试输出稳定性),给的数值都是我自己改过的,也不可能被训练背题。过程包括加减乘除、指数、对数等等。奇怪的是,其他家模型我暂时没发现有这种能力,即使他们的测试集分数很高。

经典常识题?思考过程我翻译一下

判断一根5.5米长的杆子是否能通过一个4米高、3米宽的门的思维过程如下:

1. 理解问题:

核心问题是:一个长度为5.5米的刚性物体(杆子)是否能通过一个矩形开口(门),该门的尺寸为4米高、3米宽。

2. 初步检查(简单情况):
	•	**水平放置能通过吗?**不能,杆子长度(5.5米)大于门的宽度(3米)。
	•	**垂直放置能通过吗?**不能,杆子长度(5.5米)大于门的高度(4米)。

3. 考虑斜着通过的可能性:

既然直着过不去,那唯一的可能性是对角线方式通过。

4. 找出相关对角线:

可以从两个角度考虑斜着通过的方式:
	•	门面上的对角线:想象这扇门躺平在地面上,对角线是连接两个对角的线段。这是物体平放在门框平面内时能通过的最大长度。
	•	通过门洞空间的对角线(空间对角线):这是关键。想象杆子斜着穿过门框,既倾斜于水平面,也倾斜于垂直面。杆子的一端可能接触门的上边缘,另一端接触下边缘,同时还可能接触左右门框。这个空间对角线就是通过门洞所能容纳的最长直线段。

5. 计算门面的对角线长度:

这一步使用二维平面中的勾股定理:
	•	门高为4米,门宽为3米。
	•	对角线² = 高² + 宽²
	•	对角线² = 4² + 3² = 16 + 9 = 25
	•	对角线 = √25 = 5米

6. 结论(平放对角线的方式不行):

即使将杆子平放斜着通过门,对角线最大也只有5米。而杆子的长度是5.5米,仍然太长,因此这种方式也行不通。

7. 关于“空间对角线”的讨论:

需要强调的是,这道题并不是让杆子穿过一个有深度的房间(那样需要考虑房间的长、宽、高),而是看它是否能穿过门这个二维平面开口。除非题目特别说明,否则通常不考虑门的厚度。因此,真正的限制因素就是门口的长宽尺寸。

8. 比较杆子长度与最大可通过长度:
	•	杆子长度 = 5.5米
	•	门口对角线长度 = 5米

9. 结论总结:

因为杆子的长度(5.5米)大于门对角线的最大可通过长度(5米),所以这根杆子无法通过这扇门。

都是默认的参数配置,有没有大佬看下

2 Likes

Qwen3好拉 :dotted_line_face:

有没有单向技能测试排行,比如文本,数学,代码,这样在干活的时候知道用哪个模型。

1 Like

Gemini2.5p写作能力也是强的过分,在酒馆rp圈都是独一档的存在,另外幻觉不等于创作力。

1 Like

实至名归

??????
我看错了吗?
o4mini比o4minihigh还高???

这个确实,也可能是因为开源出来的235B不够大吧,等等大杯的MAX