分数后面的"()"为统计了多少个基准的成绩
制作来源于:https://x.com/scaling01/status/1919217718420508782
作者更新的算法:
取消了之前的平均分算法,转而使用Glicko-2评级系统.
Glicko-2 评级系统介绍:
总结
这是一种常用于棋类游戏(如国际象棋)的评级系统,用于评估参与者的相对技能水平。
与简单的胜负统计或平均分不同,Glicko-2 会考虑评级的不确定性 (RD - Rating Deviation) 和评级的波动性 (σ - Volatility)。这意味着:
RD (Rating Deviation):衡量一个模型评分的可靠性。RD 值越高,表示系统对该模型真实水平的把握越不确定(可能因为参与的基准测试较少或结果波动大)。随着模型参与更多基准测试,RD 值会下降。
σ (Volatility):衡量模型表现的稳定性。波动性高的模型可能在不同基准测试中表现差异很大。
该系统会根据模型在各个基准测试中与其他模型的“对战”结果来更新每个模型的评分、RD 和 σ。
举例说明(Gemini生成)
总结
把它想象成一个更聪明的“老师”给学生(AI 模型)打分的过程:
- 看起点: 每个模型刚来时都有个基础分(比如 1500 分)。 老师对新模型的分数不太确定(RD 比较高)。 老师假设新模型表现还算稳定(Volatility 比较低)。
- 看表现(“考试”/基准测试): 模型和其他模型在各种测试里“比赛”。 老师不仅看模型考了多少分,更看重它跟谁比,结果超出了预期多少。
- 智能调分: 超常发挥? 如果一个低分模型赢了高分模型(就像一个普通学生考赢了学霸),老师会觉得“哇,进步很大!”,给它加很多分。同时,老师可能觉得这个学生潜力/状态波动大,会稍微调高它的“不稳定性” (Volatility)。 表现符合预期? 如果高分赢了低分,或者分数差不多的打平了,老师觉得“嗯,正常”,分数调整就比较小。 意外失手? 如果高分模型输给了低分模型,老师会扣比较多分,也可能调高它的“不稳定性”。 对手的可信度? 跟一个分数很稳定、很可信的对手(RD 低)比赛,结果对你分数的影响更大。跟一个分数很不确定的新对手(RD 高)比赛,结果影响就小一些。
- 更新状态: 每次“考试”后,模型会得到一个新分数 (New Rating)。 老师对这个新分数的把握更大了(RD 通常会变小,因为有了更多表现数据)。 模型的表现稳定性 (New Volatility) 也可能根据最近的表现被重新评估。
总结: Glicko-2 就是通过看模型与不同对手的“比赛”结果是否超出预期,来动态调整它的评分、评分的可信度(RD)和表现稳定性(Volatility)。赢了强敌加分多,输给弱旅扣分多,结果越意外,调整幅度越大。
模型初始基础分是 1500;
初始评分偏差 (INITIAL_RD): 350
初始波动率 (INITIAL_VOL / σ): 0.06
TAU (τ): 0.5
现在模型必须至少在 10 个基准测试中出现才能上榜
更新:
28个基准如下
SimpleBench;
SOLO-Bench;
AidanBench;
SEAL MultiChallenge;
LMArena (带风格控制);
LiveBench;
ARC-AGI-1;
Thematic Generalization;
Confabulations and Elimination Game by LechMazur;
EQBench (长篇写作与创意写作);
Fiction-Live Bench (按所有上下文长度的最高平均得分):
MC-Bench:
TrackingAI - IQ Bench (按模型的最佳得分,无论是否包含视觉能力):
Dubesor LLM:
Balrog-AI:
Misguided Attention:
Snake-Bench:
SmolAgents LLM:
Context-Arena:
OpenCompass (CompassBench):
Aider-Polyglot-Coding:
WebDev-Arena:
WeirdML:
MathArena (总体):
Galileo Agent:
Simple-Evals:
作者补充到:
But I think Gemini 2.5 Flash Thinking, Grok 3 mini and GPT-4.1 might be slightly overrated here.
2.5Flash,Grok 3 mini , GPT-4.1的分数总体虚高,其余还好
79 Likes
Paolo
5
啊Gemini数学肯定比o3强的,反正我实测是这样的
3 Likes
sxjeru
(sxjeru)
8
o4/o3-mini 高于 o4/o3-mini (high)
Qwen3 缺少启用推理的分数。
1 Like
但是我测的不一样呢,我对比的是o3 mini high(o4 mini和o3非常不稳定),数学题就没错过,gemini问竹竿问题,和高数都经常错
补个之前的测试
这是刚测的gemini ,算了五分钟算错了,不知道他的思路是什么,有点太长了↓
感觉gemini算是暴力破解,但是做错了?虽然我不知道o3 mini high怎么做到的,刷题吗?
放下题目
已知函数
$$f(x) = e^x + ax^2 - x.$$
(1) 当$a = 1$时,讨论$f(x)$的单调性;
(2) 当$x \geq 0$时,$f(x) \geq \frac{1}{2}x^3 + 1$,求$a$的取值范围。
3 Likes
Brian963
(Zuo Hao)
10
Gemini名副其实 主观体验下来也是最强的一档 无论是理解人 还是 能力 水平 可用性
就是ai都不怎么会写剧情,写剧本,文字创作感觉不如R1
1 Like
zzq
11
可能是官网 o3 调用了外部工具?不然 llm 天生不擅长计算。
api和官网都算的非常准确(但是我看了一眼他的过程,有点穷举蒙对的意思,因为高考题取的是x=2那点,代入回去就可以算出正确答案),但是gemini不知道叽里咕噜在算什么
o3 o4 mini high 都不能完美每次作对这道题了
还有经典的竹竿问题,我感觉gemini也是经常做错的,不知道为什么,无语
user924
(虹 连)
13
我自己用下来,其实从o1开始,即使没有外部工具,oai家的模型已经能算对长过程数值计算了,精度误差甚至能到小数点后几位(虽然我没测试输出稳定性),给的数值都是我自己改过的,也不可能被训练背题。过程包括加减乘除、指数、对数等等。奇怪的是,其他家模型我暂时没发现有这种能力,即使他们的测试集分数很高。
经典常识题?思考过程我翻译一下
判断一根5.5米长的杆子是否能通过一个4米高、3米宽的门的思维过程如下:
1. 理解问题:
核心问题是:一个长度为5.5米的刚性物体(杆子)是否能通过一个矩形开口(门),该门的尺寸为4米高、3米宽。
2. 初步检查(简单情况):
• **水平放置能通过吗?**不能,杆子长度(5.5米)大于门的宽度(3米)。
• **垂直放置能通过吗?**不能,杆子长度(5.5米)大于门的高度(4米)。
3. 考虑斜着通过的可能性:
既然直着过不去,那唯一的可能性是对角线方式通过。
4. 找出相关对角线:
可以从两个角度考虑斜着通过的方式:
• 门面上的对角线:想象这扇门躺平在地面上,对角线是连接两个对角的线段。这是物体平放在门框平面内时能通过的最大长度。
• 通过门洞空间的对角线(空间对角线):这是关键。想象杆子斜着穿过门框,既倾斜于水平面,也倾斜于垂直面。杆子的一端可能接触门的上边缘,另一端接触下边缘,同时还可能接触左右门框。这个空间对角线就是通过门洞所能容纳的最长直线段。
5. 计算门面的对角线长度:
这一步使用二维平面中的勾股定理:
• 门高为4米,门宽为3米。
• 对角线² = 高² + 宽²
• 对角线² = 4² + 3² = 16 + 9 = 25
• 对角线 = √25 = 5米
6. 结论(平放对角线的方式不行):
即使将杆子平放斜着通过门,对角线最大也只有5米。而杆子的长度是5.5米,仍然太长,因此这种方式也行不通。
7. 关于“空间对角线”的讨论:
需要强调的是,这道题并不是让杆子穿过一个有深度的房间(那样需要考虑房间的长、宽、高),而是看它是否能穿过门这个二维平面开口。除非题目特别说明,否则通常不考虑门的厚度。因此,真正的限制因素就是门口的长宽尺寸。
8. 比较杆子长度与最大可通过长度:
• 杆子长度 = 5.5米
• 门口对角线长度 = 5米
9. 结论总结:
因为杆子的长度(5.5米)大于门对角线的最大可通过长度(5米),所以这根杆子无法通过这扇门。
都是默认的参数配置,有没有大佬看下
2 Likes
Aiora
(AI)
16
有没有单向技能测试排行,比如文本,数学,代码,这样在干活的时候知道用哪个模型。
1 Like
3GZ
(3GZ)
17
Gemini2.5p写作能力也是强的过分,在酒馆rp圈都是独一档的存在,另外幻觉不等于创作力。
1 Like
??????
我看错了吗?
o4mini比o4minihigh还高???
这个确实,也可能是因为开源出来的235B不够大吧,等等大杯的MAX