grok4疑拟碾压o3和2.5Pro


grok4 HLE直接干到了35,gpqa干到了87
(HLE干到35,目前最高的2.5Pro也就22,o3也才20)

HLE,人类最后的考试,考验全学科能力,一共3000多道超高难度题,由全球2000名专家合作开发

GPQA,考验博士级理科题目,主要是推理能力的体现

2025-07-05T01:30:00Z 补图

来源相对可信

51 Likes

这是啥:thinking:

3 Likes

这是关于什么能力的测试吗?

4 Likes

没有生产力需求,稳定对IP要求低免费给我玩才是好文明 :joy:

57 Likes

现在不“碾压”,都不好意思发布新模型。

14 Likes

连个影子都看不到怎么又开始吹了,先收一收

52 Likes

哪里的数据?可靠吗?是否可能针对问题定向训练?

8 Likes

之前grok3.5吹得更狠,结果呢,都不敢发了,直接跳过了。

8 Likes

人类最后的考试基准?

4 Likes

我先来,太炸裂了,兄弟们,grok又又又出新模型了,史诗级更新,吊打xxxx…

50 Likes

你猜我信吗 :squinting_face_with_tongue:

9 Likes

4 Likes

面向题库训练?

5 Likes

期待,但不信

4 Likes

很难让我相信,除非免费给我用

1 Like

“疑似(营销)碾压” 缩写掉了两个字

3 Likes

很有可能是针对问题训练,等出了再看看吧。

1 Like

又开始了吗

2 Likes

:tieba_030: 水太快光看标题和图了

1 Like

四號了,老馬你妹的,我的edu還有四天到期活動你也不搞了

2 Likes