DeepSeek还在持续上分!打败o1位列世界最难基准测试Humanity's Last Exam第一名

Humanity’s Last Exam (人类的最终测验)
这个基准测试是去年年底面向各学科专家征集的顶级专业问题,涵盖一百多个学科。专家提出、AI答不上来、经过人工审核和完善的问题才能入选,问题入选就有500-5000美金拿。
强如o1,也只能达到9.1的正确率,但R1竟然还能略超o1一头。


通俗解释一下这两列参数,第一列是正确率,第二列是评估模型的过度自信问题,数值越低,说明模型更知道自己做的不对。在当前大模型正确率偏低的情况下,第二列数据反而很重要。
举几个问题的例子,看有没有佬友会做:

  1. 在雨燕目中,蜂鸟独特地拥有一对左右对称的椭圆形籽骨,它镶嵌在尾下肌扩大且呈十字形的肌腱膜插入部位的后外侧部分。这个籽骨支撑着多少对肌腱?请用一个数字回答。
  2. 在一条水平导轨上放置一个滑块,它可以在导轨上无摩擦地滑动。该滑块与一根长度为 R、刚性且无质量的杆的一端相连,杆的另一端连接一个重物。这两个物体的重量均为 W。系统最初保持静止,且该质量位于滑块正上方。现在给予该质量一个极小的、平行于导轨的推动。假设系统被设计成能够让这根杆在不受阻碍的情况下完成 360 度的完整旋转。当杆处于水平位置时,杆所承受的拉力为 T1。当杆再次竖直、且质量位于滑块正下方时,杆所承受的拉力为 T2。(注意,这两个力的数值可能为负,表示杆处于受压状态。)请问:(T1−T2 )/W 的数值是多少?
  3. 所给出的反应是一个热诱导的周环级联反应,可将起始的庚烯(heptaene)转化为内地安酸B甲酯(endiandric acid B methyl ester)。该级联反应包含三个步骤:先后进行两次电环化反应(electrocyclizations),然后进行一次环加成反应(cycloaddition)。请问,在第1步和第2步分别发生了哪种类型的电环化反应?在第3步又是哪一种环加成反应?
    回答电环化反应时,请使用 ([n\pi])-con 或 ([n\pi])-dis 的形式(其中 (n) 是参与反应的 (\pi) 电子数,con 表示同向旋转,dis 表示反向旋转);
    回答环加成反应时,请使用 ([m+n]) 的形式(其中 (m) 和 (n) 分别表示各组分中参与反应的原子数)。

    完整榜单见 Humanity’s Last Exam
    论文见 Humanity’s Last Exam Full Paper
30 个赞

deepseek yyds
他们年终奖应该挺多了tieba_087

16 个赞

太强了!

1 个赞

老黄要被震惊了 你这样我还怎么卖卡

17 个赞

太强了,比隔壁不知道好多少,而且免费:tieba_087:

3 个赞

好厉害!

1 个赞

这是目前的全部排名


左边是纯文本的问题,右面是全部问题的排名(R1不是多模态,只能做文字题)

2 个赞

在哪里可以查看啊

2 个赞

实测确实好用,和o1不分上下。尤其deepseek还免费

2 个赞

gemini 这么拉了吗?

2 个赞

怎么过年刷起分来了,冲业绩:joy:

同问 在哪可以看到全部的排名

deepseek太强了

Humanity’s Last Exam 这里是官方结果


网址在楼上。目前就这么多模型,分再低的可能没啥意义测了。测试结果是昨天才发布的。

1 个赞

gpt-4o真成计量单位了 :joy:

1 个赞

有 temperature 等参数吗


我还真去翻论文了,temperature全部是0.

3 个赞

以前当ChatGPT是神,但自从用了一次DeepSeek后,我就再没打开过OpenAi了。

2 个赞

国产也是越来越好了

1 个赞