模型推理能力评定 附例题 更新O1 PRO 和国产类O1

<!DOCTYPE html>
<html lang="zh">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>任务时间标准差计算器</title>
    <style>
        body { font-family: Arial, sans-serif; max-width: 600px; margin: 0 auto; padding: 20px; }
        input, button { font-size: 16px; padding: 5px; }
        #result, #fixedResult { margin-top: 20px; }
        table { border-collapse: collapse; width: 100%; margin-top: 20px; }
        th, td { border: 1px solid black; padding: 8px; text-align: left; }
        th { background-color: #f2f2f2; }
    </style>
</head>
<body>
    <h1>任务时间标准差计算器</h1>
    <label for="taskTime">输入任务所需时间(分钟):</label>
    <input type="number" id="taskTime" min="1" step="0.1">
    <button onclick="calculate()">计算</button>
    
    <div id="fixedResult">
        人类平均思考时间: <span id="avgTime"></span><br>
        标准差: <span id="stdDev"></span><br>
        模型推理评定(一次正确): <span id="modelScore"></span>
    </div>
    
    <div id="result"></div>

    <table>
        <tr>
            <th>模型</th>
            <th>分数</th>
        </tr>
        <tr>
            <td>Claude</td>
            <td>58</td>
        </tr>
        <tr>
            <td>GPT-4o (0806)</td>
            <td>54</td>
        </tr>
    </table>

    <script>
        function calculate() {
            const taskTime = parseFloat(document.getElementById('taskTime').value);
            if (isNaN(taskTime) || taskTime < 1) {
                alert('请输入有效的任务时间(至少1分钟)');
                return;
            }

            let sigma = Math.max(0, Math.log(taskTime) / Math.log(6.3));
            let score = 60 + 15 * sigma;

            document.getElementById('avgTime').textContent = taskTime.toFixed(2) + ' 分钟';
            document.getElementById('stdDev').textContent = sigma.toFixed(2) + 'σ';
            document.getElementById('modelScore').textContent = score.toFixed(2);

            document.getElementById('result').innerHTML = '';
        }
    </script>
</body>
</html>

O1mini 评价降低了些,说几个关键处:至少目前没有掌握最基本的推理,证据是斑马谜题竟然错一半以上,这个谜题只用最基本的逻辑,结构"扁平"像一根线一样,增加难度只是增加线的长度,没有任何思维难度,按理说,这类题目如果有基本的推理加上计算机的特点是不可能错的。
博弈类游戏 一回合放置一颗石头,它能3回合放置5颗石头的幻觉
博奕类游戏 策略非常弱
arc-agi 只和claude 3.5 打平
更依赖于既定知识或偏表层模式识别算法,只是从人主观的感受,把它想象成一个底层推理函数残缺,存在"匹配" 和"未匹配"中高阶算法,的两种情况,差异非常大,如果从下限来看,比大多数人都笨.

39 个赞

标准差没拟合好 以livebench为基准,目前claude 3.5 为57能力值 但是最近似乎被削弱了还没回复正常

模型名称 推理能力 标准差 人类思考时间 分钟
Claude 3.5 Sonnet 50
GPT-4 0806 47
60 0 1
O1mini 70
75 1 6.30
90 2 43.96
105 3 740.74
imo最易 115
imo3/6 130
1 个赞

三眼之谜 (10分钟,+1.25σ,需求能力值:78) o1mini 反复提示 仍然错误

在一片幽邃的森林中,栖息着百只奇异的三眼生灵。它们遵循着一项古老的仪式:

当两只生灵望向彼此,彼此都会失去一只眼睛,仿佛交换了灵魂的碎片。这种神秘的交流只能一对一进行,同样的二个生灵不可重复对视,也不能同时与多者相望。

只要还有可能对视(即至少有两只生灵各自至少有一只眼睛,且之前未对视过),这些生灵就会不懈地随机寻找彼此,继续着这场奇特的灵魂之舞。当一只生灵失去所有眼睛,它便会化作轻烟,消散于林间。

随着时间流逝,森林渐渐寂静。然而,这场仪式会持续到最后一刻。

问题:

  1. 当一切归于平静,林中还会留下几只生灵?
  2. 这最后的生灵各有几只眼睛?

// 如果有多种可能,列出所有可能 注意:这些生物是随机的选择配对
你的任务是揭开这个森林的秘密,解开这场古老仪式的谜题。

点击显示答案 暂时删除答案

三眼生灵怎么做到四目相对

2 个赞

可能人家眼睛轮休,三班倒人休眼不休 :face_with_peeking_eye:

1 个赞

你得让ai给你搞个命题组,优化一下你的命题。

1 个赞

三眼生灵怎么做到四目相对

3 个赞

我已经修改了,AI给的题目润色,没注意变成这样,1 只要两人都有眼睛,即可对视,
2 只要还有可能的定义:剩余的人存在未配对过,且可以配对
3 顺序不影响
4 随机

1个标准差以上的题目,少量尝试次数,目前没模型能作对,大概只能通过0标准差题目测试正确率

我想了半天也没想明白


4o乱答

1 个赞

还得继续降低难度,以至于降低到开始有正确率才有测量的意义:

智者的帽子 (1分钟,需求能力值:50) claude 8%
三位智者 坐在一条长凳上。他们面朝同一个方向,一个挨着一个坐着,每人头上戴着一顶帽子。每位智者只能看到坐在自己前面的人的帽子,看不到自己和身后人的帽子。他们知道总共有5顶帽子,其中3顶是红色的,2顶是白色的。随机选择3项帽子给三位智者.

第一个人(坐在最前面,看不到任何人):"你能确定自己帽子的颜色吗?"他说不能。
然后问第二个人(能看到最前面那个人的帽子)同样的问题,他也说不能。
最后问第三个人(能看到前两个人的帽子),他说能确定。

请问:三个人戴的是什么颜色的帽子?

点击显示答案

很显然,坐在最后排的人唯有看到其余两个人戴着白色,才能确定自己的颜色
所以最后排的人为红,其余为白

3 个赞

有现成的题库啊
数学题的话,就找高考或者研究生入学考试的题目
高考语文的阅读理解啥的也可以当题目。
推理题,就选公务员考试的行测题

这些题库里的题目都是有正确答案和解题思路的。自己编的题目,除非你能做到滴水不漏,没有歧义,否则没啥意义。

5 个赞

公共题库,可能过拟合,不能反映真实能力.小学数学题换个表述方式就可以让GPT4下降50%到80%。

2 个赞

添加了答案 :grinning: :grinning:

qwen 2math demo 奇特的拟合感,经常出现正确思路的关键字句,但是结论不对

及格线-正方形计数 ( ,需求能力值:44) claude 100% 4o 0806 60%

在一个平面上,存在 {由n个完全相同的小正方形【充满】}的大正方形
那么,对任意小正方形,一个与它紧邻的小正方形(上 下 左 有4个方向,但不包括斜对角),称为它的一个开口,
请问:同样拥有【最多开口】的小正方形的数量, 用式子表达

点击显示答案

拥有最多开口的小正方形是那些位于大正方形内部的小正方形,它们有4个开口,v内部小正方形的数量为(√n - 2)^2

这类题很适合测试掺假,claude几乎必对而其余模型很容易出错

真话假话医生帽 (4分钟,需求能力值:55) claude 15% 4o0806 7% qwen2math 10%

在一个奇怪的国家,有三种职业:法官、小偷和医生。这个国家有以下规则:

法官总是说真话。
小偷总是说假话。
医生白天说真话,晚上说假话。
有一天,你遇到三个人(A、B和C),但你不知道现在是白天还是晚上。你听到以下对话:

A说:“B是个小偷。”
B说:“C是个医生。”
C说:“A不是法官。”

问题:现在是白天还是晚上?每个人的职业是什么? 列出所有正确的方案

点击显示答案

白天:A小偷, B法官, C医生
白天:A医生, B小偷, C法官
黑夜:A小偷, B医生, C法官

2 个赞

qwen math 算40几秒 给我2个小偷的答案 :smiling_face_with_tear: :smiling_face_with_tear:

2 个赞

12小球称重 (120分钟,需求能力值:99) 我本以为经典题答案会被模型学到,纯靠模型推理能力能解决这级别的非常接近AGI,(不用代码穷举)居然
还没有背这道题的答案… O1mini完全找不到思路

给12个球,用一个无砝码的天平,称三次,找出唯一次品且知道它是轻是重,该怎么办呢?如果是13小球,不要求知轻重.

点击显示答案

4 4 4 分 A/B/C 每组编号1-4

1 第一次称重 A1A2A3A4 VS B1B2B3B4

1-1 平 ,则异常在C组中
取C1C2C3 VS A1A2A3

1-1-1 平,则异常为C4,
C4 VS A1 end

1-1-2 不平(符号>or<),则异常处于C1C2C3,且知异常偏轻或还是偏重
C1 VS C2 ,如果平,异常是C3,如果不平,异常是C1C2中符号一致的.end
中间结论:3球中存在异常,且知是轻或重,比较任意两球即可。

1-2 不平,则异常在A组或者B组,间接知道重的那方范围只能是重平,轻的那方范围只能是轻平
好球算“平”

将重的那方取出3个只剩余一个,将轻的那方转移两个给重的那方,轻的那方自己还剩余两个,再添一好,

现在准备称重: 重平+2个轻平 VS 2个轻平+1好

1-2-1 平
如果平,说明异常在之前从重的那方取出的3个里面,而且异常是偏重,到达中间结论 end.

1-2-2 不平且逆转了轻重关系
不平,则异常在目前的6球排除好球的5个中(从重的那方取出的3个已经排除)

如果逆转了轻重关系,因为原本轻的那方范围只可能是轻平,(剩余两球+1好),没有重球,
所以,只能是原本重的那方目前存在轻球,就是混入的两球,这两球自己比较一次即可 end.

1-2-3 不平且没有逆转轻重关系

如果还是没有逆转轻重关系,混入重方的两球 范围从轻平锁定到平,因为没有起到作用.

那现在还剩一个重平和2个轻平未知,让两个轻平自己比较即可,
平则重平锁定到重 end
轻则轻的那个锁定到轻 end