grok4 HLE直接干到了35,gpqa干到了87
(HLE干到35,目前最高的2.5Pro也就22,o3也才20)
HLE,人类最后的考试,考验全学科能力,一共3000多道超高难度题,由全球2000名专家合作开发
GPQA,考验博士级理科题目,主要是推理能力的体现
2025-07-05T01:30:00Z 补图
来源相对可信
HLE,人类最后的考试,考验全学科能力,一共3000多道超高难度题,由全球2000名专家合作开发
GPQA,考验博士级理科题目,主要是推理能力的体现
2025-07-05T01:30:00Z 补图
来源相对可信
这是啥
这是关于什么能力的测试吗?
没有生产力需求,稳定对IP要求低免费给我玩才是好文明
现在不“碾压”,都不好意思发布新模型。
连个影子都看不到怎么又开始吹了,先收一收
哪里的数据?可靠吗?是否可能针对问题定向训练?
之前grok3.5吹得更狠,结果呢,都不敢发了,直接跳过了。
人类最后的考试基准?
我先来,太炸裂了,兄弟们,grok又又又出新模型了,史诗级更新,吊打xxxx…
你猜我信吗
…
面向题库训练?
期待,但不信
很难让我相信,除非免费给我用
“疑似(营销)碾压” 缩写掉了两个字
很有可能是针对问题训练,等出了再看看吧。
水太快光看标题和图了
四號了,老馬你妹的,我的edu還有四天到期活動你也不搞了