大模型综合性能天梯定位表,个人主观看法(已更新o4mini、Gemini-2.5-Flash、o3、Grok-3-mini、GPT-4.1、御三家经典模型、Gemma、商汤、混元、豆包)

【数学】,一般都是单列在推理之外,单独作为一项计算。不属于推理。

【数学】,建议主要看AIME 2024 (Competition Math),不属于推理。

【推理】,建议主要看 GPQA Diamond,覆盖了物理、化学、生物学和经济学等数十门学科的钻石级难题

1 Like

学术类的

你这个就太专业太权威了

1 Like

最近OpenAI新出的几个模型不更新了么?

数据还不全,还在等

已经更新,数据不全,之后还会修改
尤其是o4 mini系列,实测有点糟糕,有严重的幻觉,输出也不长,可能在下一次会继续下调到o1水平甚至之下

@ccbt
@Sam_Altman
@liulapatuoni
@dwqxq1

4 Likes

无法评价,原因是o3/o4上新之后在我这降智降得厉害 :tieba_016:
那我只能认为不如2.5flash

这里只是理论值,到时候看要不要修改,我需要大家的意见。

不过我支持下调,这个亲民化的输出我认为应该是有限度的,不能是癫的

1 Like

oai也就适合非码农用 码农已经很久没用过oai了

1 Like

确实,编程都是claude,gemini了

1 Like

oai所谓的代码能力,都是竞技性代码能力。(偏向于基于代码的智力推理游戏)

claude日常使用的代码能力,应该是SWE这种软件工程能力(更贴近于实际代码任务)

AIDER测试感觉较为综合,从分数排名看,介于日常代码和竞技代码两者之间。