GPQA Diamond旨在评估模型解决需要专家级别理解和推理能力的问题。与传统问答数据集侧重于事实检索或模式识别不同,GPQA Diamond 考察模型对复杂概念的理解、知识的应用和多步骤推理能力,因此,可以作为AGI更有意义的评估标准。该数据集聚焦于需要专家级理解和推理能力的问题。
1 Like
2 Likes
击败4.5??
2 Likes
是呀,GPT-4.5是最强的非推理模型。
1 Like
虽然但是,我的眼睛似乎让我只关注到了我最爱的2.5 Pro的断层优势
2 Likes
真的这么强啊
推理模型,正常的。何况gemini 2.5 pro 是o3 级的模型
你可以看一下非推理的claude 3.7 sonnet成绩就很差了。但是推理模型的claude 3.7 sonnet-thinking就很强。
1 Like
grok-3 low的得分竟然比high要高,说明过度思考反而有可能降低事实准确率?
有这种可能,不是grok 3 酒馆里老是重复上文,或者死循环吗?
我之前在官网用思考模式,也出现过那种思考过程中的死循环。
livebench 虽然非常全面,不过单独某项能力的测试,权威性应该比GPQA Diamond低一些。
O系列,Claude、Gemini,DeepSeek,Qwen一般都会在官网发布页附上GPQA Diamond的分数。
1 Like
桌下grok发力了
5刀用着
扎克伯格这下是追不上马斯克了,我本来还指望llama 4 能追赶grok 3呢
1 Like
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。