Humanity’s Last Exam (人类的最终测验)
这个基准测试是去年年底面向各学科专家征集的顶级专业问题,涵盖一百多个学科。专家提出、AI答不上来、经过人工审核和完善的问题才能入选,问题入选就有500-5000美金拿。
强如o1,也只能达到9.1的正确率,但R1竟然还能略超o1一头。
通俗解释一下这两列参数,第一列是正确率,第二列是评估模型的过度自信问题,数值越低,说明模型更知道自己做的不对。在当前大模型正确率偏低的情况下,第二列数据反而很重要。
举几个问题的例子,看有没有佬友会做:
- 在雨燕目中,蜂鸟独特地拥有一对左右对称的椭圆形籽骨,它镶嵌在尾下肌扩大且呈十字形的肌腱膜插入部位的后外侧部分。这个籽骨支撑着多少对肌腱?请用一个数字回答。
- 在一条水平导轨上放置一个滑块,它可以在导轨上无摩擦地滑动。该滑块与一根长度为 R、刚性且无质量的杆的一端相连,杆的另一端连接一个重物。这两个物体的重量均为 W。系统最初保持静止,且该质量位于滑块正上方。现在给予该质量一个极小的、平行于导轨的推动。假设系统被设计成能够让这根杆在不受阻碍的情况下完成 360 度的完整旋转。当杆处于水平位置时,杆所承受的拉力为 T1。当杆再次竖直、且质量位于滑块正下方时,杆所承受的拉力为 T2。(注意,这两个力的数值可能为负,表示杆处于受压状态。)请问:(T1−T2 )/W 的数值是多少?
- 所给出的反应是一个热诱导的周环级联反应,可将起始的庚烯(heptaene)转化为内地安酸B甲酯(endiandric acid B methyl ester)。该级联反应包含三个步骤:先后进行两次电环化反应(electrocyclizations),然后进行一次环加成反应(cycloaddition)。请问,在第1步和第2步分别发生了哪种类型的电环化反应?在第3步又是哪一种环加成反应?
回答电环化反应时,请使用 ([n\pi])-con 或 ([n\pi])-dis 的形式(其中 (n) 是参与反应的 (\pi) 电子数,con 表示同向旋转,dis 表示反向旋转);
回答环加成反应时,请使用 ([m+n]) 的形式(其中 (m) 和 (n) 分别表示各组分中参与反应的原子数)。
完整榜单见 Humanity’s Last Exam
论文见 Humanity’s Last Exam Full Paper