GPQA Diamond成绩出炉:Grok-3击败GPT-4.5,分数登顶世界最强非推理模型。Grok-3-mini高于DeepSeek R1取得好分数

GPQA Diamond旨在评估模型解决需要专家级别理解和推理能力的问题。与传统问答数据集侧重于事实检索或模式识别不同,GPQA Diamond 考察模型对复杂概念的理解、知识的应用和多步骤推理能力,因此,可以作为AGI更有意义的评估标准。该数据集聚焦于需要专家级理解和推理能力的问题。

1 Like

@dwqxq1

2 Likes

击败4.5??

2 Likes

是呀,GPT-4.5是最强的非推理模型。

1 Like

虽然但是,我的眼睛似乎让我只关注到了我最爱的2.5 Pro的断层优势

2 Likes

真的这么强啊

推理模型,正常的。何况gemini 2.5 pro 是o3 级的模型

你可以看一下非推理的claude 3.7 sonnet成绩就很差了。但是推理模型的claude 3.7 sonnet-thinking就很强。

1 Like

grok-3 low的得分竟然比high要高,说明过度思考反而有可能降低事实准确率?

有这种可能,不是grok 3 酒馆里老是重复上文,或者死循环吗?

我之前在官网用思考模式,也出现过那种思考过程中的死循环。

livebench的:

livebench 虽然非常全面,不过单独某项能力的测试,权威性应该比GPQA Diamond低一些。

O系列,Claude、Gemini,DeepSeek,Qwen一般都会在官网发布页附上GPQA Diamond的分数。

1 Like

桌下grok发力了

5刀用着 :grinning_face:

扎克伯格这下是追不上马斯克了,我本来还指望llama 4 能追赶grok 3呢 :rofl:

1 Like

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。