【数学】,一般都是单列在推理之外,单独作为一项计算。不属于推理。
【数学】,建议主要看AIME 2024 (Competition Math),不属于推理。
【推理】,建议主要看 GPQA Diamond,覆盖了物理、化学、生物学和经济学等数十门学科的钻石级难题
【数学】,一般都是单列在推理之外,单独作为一项计算。不属于推理。
【数学】,建议主要看AIME 2024 (Competition Math),不属于推理。
【推理】,建议主要看 GPQA Diamond,覆盖了物理、化学、生物学和经济学等数十门学科的钻石级难题
学术类的
你这个就太专业太权威了
最近OpenAI新出的几个模型不更新了么?
数据还不全,还在等
已经更新,数据不全,之后还会修改
尤其是o4 mini系列,实测有点糟糕,有严重的幻觉,输出也不长,可能在下一次会继续下调到o1水平甚至之下
无法评价,原因是o3/o4上新之后在我这降智降得厉害
那我只能认为不如2.5flash
这里只是理论值,到时候看要不要修改,我需要大家的意见。
不过我支持下调,这个亲民化的输出我认为应该是有限度的,不能是癫的
oai也就适合非码农用 码农已经很久没用过oai了
确实,编程都是claude,gemini了
oai所谓的代码能力,都是竞技性代码能力。(偏向于基于代码的智力推理游戏)
claude日常使用的代码能力,应该是SWE这种软件工程能力(更贴近于实际代码任务)
AIDER测试感觉较为综合,从分数排名看,介于日常代码和竞技代码两者之间。