模型推理能力评定附例题更新O1 PRO 和国产类O1

pwtramp123 · 2024 年8 月 29 日 18:56

<!DOCTYPE html>
<html lang="zh">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>任务时间标准差计算器</title>
    <style>
        body { font-family: Arial, sans-serif; max-width: 600px; margin: 0 auto; padding: 20px; }
        input, button { font-size: 16px; padding: 5px; }
        #result, #fixedResult { margin-top: 20px; }
        table { border-collapse: collapse; width: 100%; margin-top: 20px; }
        th, td { border: 1px solid black; padding: 8px; text-align: left; }
        th { background-color: #f2f2f2; }
    </style>
</head>
<body>
    <h1>任务时间标准差计算器</h1>
    <label for="taskTime">输入任务所需时间（分钟）：</label>
    <input type="number" id="taskTime" min="1" step="0.1">
    <button onclick="calculate()">计算</button>
    
    <div id="fixedResult">
        人类平均思考时间: <span id="avgTime"></span><br>
        标准差: <span id="stdDev"></span><br>
        模型推理评定（一次正确）: <span id="modelScore"></span>
    </div>
    
    <div id="result"></div>

    <table>
        <tr>
            <th>模型</th>
            <th>分数</th>
        </tr>
        <tr>
            <td>Claude</td>
            <td>58</td>
        </tr>
        <tr>
            <td>GPT-4o (0806)</td>
            <td>54</td>
        </tr>
    </table>

    <script>
        function calculate() {
            const taskTime = parseFloat(document.getElementById('taskTime').value);
            if (isNaN(taskTime) || taskTime < 1) {
                alert('请输入有效的任务时间（至少1分钟）');
                return;
            }

            let sigma = Math.max(0, Math.log(taskTime) / Math.log(6.3));
            let score = 60 + 15 * sigma;

            document.getElementById('avgTime').textContent = taskTime.toFixed(2) + ' 分钟';
            document.getElementById('stdDev').textContent = sigma.toFixed(2) + 'σ';
            document.getElementById('modelScore').textContent = score.toFixed(2);

            document.getElementById('result').innerHTML = '';
        }
    </script>
</body>
</html>

O1mini 评价降低了些，说几个关键处：至少目前没有掌握最基本的推理，证据是斑马谜题竟然错一半以上，这个谜题只用最基本的逻辑，结构"扁平"像一根线一样，增加难度只是增加线的长度，没有任何思维难度，按理说，这类题目如果有基本的推理加上计算机的特点是不可能错的。
博弈类游戏一回合放置一颗石头，它能3回合放置5颗石头的幻觉
博奕类游戏策略非常弱
arc-agi 只和claude 3.5 打平
更依赖于既定知识或偏表层模式识别算法，只是从人主观的感受，把它想象成一个底层推理函数残缺，存在"匹配" 和"未匹配"中高阶算法，的两种情况，差异非常大，如果从下限来看，比大多数人都笨.

pwtramp123 · 2024 年8 月 29 日 18:57

标准差没拟合好以livebench为基准，目前claude 3.5 为57能力值但是最近似乎被削弱了还没回复正常

模型名称	推理能力	标准差	人类思考时间分钟
Claude 3.5 Sonnet	50
GPT-4 0806	47
	60	0	1
O1mini	70
	75	1	6.30
	90	2	43.96
	105	3	740.74
imo最易	115
imo3/6	130

pwtramp123 · 2024 年8 月 29 日 18:59

三眼之谜 (10分钟,+1.25σ，需求能力值：78) o1mini 反复提示仍然错误

在一片幽邃的森林中，栖息着百只奇异的三眼生灵。它们遵循着一项古老的仪式：

当两只生灵望向彼此，彼此都会失去一只眼睛，仿佛交换了灵魂的碎片。这种神秘的交流只能一对一进行，同样的二个生灵不可重复对视，也不能同时与多者相望。

只要还有可能对视（即至少有两只生灵各自至少有一只眼睛，且之前未对视过），这些生灵就会不懈地随机寻找彼此，继续着这场奇特的灵魂之舞。当一只生灵失去所有眼睛，它便会化作轻烟，消散于林间。

随着时间流逝，森林渐渐寂静。然而，这场仪式会持续到最后一刻。

问题：

当一切归于平静，林中还会留下几只生灵？
这最后的生灵各有几只眼睛？

// 如果有多种可能，列出所有可能注意：这些生物是随机的选择配对
你的任务是揭开这个森林的秘密，解开这场古老仪式的谜题。

点击显示答案

暂时删除答案

hsyg63m5 · 2024 年8 月 29 日 21:22

三眼生灵怎么做到四目相对

lucky7genius · 2024 年8 月 29 日 23:33

可能人家眼睛轮休，三班倒人休眼不休

barrylongface · 2024 年8 月 30 日 00:03

你得让ai给你搞个命题组，优化一下你的命题。

Adonis142857 · 2024 年8 月 30 日 00:05

三眼生灵怎么做到四目相对

pwtramp123 · 2024 年8 月 30 日 01:29

我已经修改了，AI给的题目润色，没注意变成这样，1 只要两人都有眼睛，即可对视，
2 只要还有可能的定义：剩余的人存在未配对过，且可以配对
3 顺序不影响
4 随机

pwtramp123 · 2024 年8 月 30 日 02:37

1个标准差以上的题目，少量尝试次数，目前没模型能作对，大概只能通过0标准差题目测试正确率

handsome · 2024 年8 月 30 日 02:41

我想了半天也没想明白

handsome · 2024 年8 月 30 日 02:47

4o乱答

pwtramp123 · 2024 年8 月 30 日 03:08

还得继续降低难度，以至于降低到开始有正确率才有测量的意义：

智者的帽子（1分钟，需求能力值：50） claude 8%
三位智者坐在一条长凳上。他们面朝同一个方向，一个挨着一个坐着，每人头上戴着一顶帽子。每位智者只能看到坐在自己前面的人的帽子，看不到自己和身后人的帽子。他们知道总共有5顶帽子，其中3顶是红色的，2顶是白色的。随机选择3项帽子给三位智者.

第一个人（坐在最前面，看不到任何人）："你能确定自己帽子的颜色吗？"他说不能。
然后问第二个人（能看到最前面那个人的帽子）同样的问题，他也说不能。
最后问第三个人（能看到前两个人的帽子），他说能确定。

请问：三个人戴的是什么颜色的帽子？

点击显示答案

很显然，坐在最后排的人唯有看到其余两个人戴着白色，才能确定自己的颜色
所以最后排的人为红，其余为白

barrylongface · 2024 年8 月 30 日 03:15

有现成的题库啊
数学题的话，就找高考或者研究生入学考试的题目
高考语文的阅读理解啥的也可以当题目。
推理题，就选公务员考试的行测题

这些题库里的题目都是有正确答案和解题思路的。自己编的题目，除非你能做到滴水不漏，没有歧义，否则没啥意义。

pwtramp123 · 2024 年8 月 30 日 03:23

公共题库，可能过拟合，不能反映真实能力.小学数学题换个表述方式就可以让GPT4下降50%到80%。

pwtramp123 · 2024 年8 月 30 日 04:10

添加了答案

pwtramp123 · 2024 年8 月 30 日 04:43

qwen 2math demo 奇特的拟合感，经常出现正确思路的关键字句，但是结论不对

pwtramp123 · 2024 年8 月 30 日 06:47

及格线-正方形计数（，需求能力值：44） claude 100% 4o 0806 60%

在一个平面上，存在 {由n个完全相同的小正方形【充满】}的大正方形
那么，对任意小正方形，一个与它紧邻的小正方形（上下左有4个方向，但不包括斜对角），称为它的一个开口，
请问:同样拥有【最多开口】的小正方形的数量，用式子表达

点击显示答案

拥有最多开口的小正方形是那些位于大正方形内部的小正方形，它们有4个开口,v内部小正方形的数量为(√n - 2)^2

这类题很适合测试掺假，claude几乎必对而其余模型很容易出错

pwtramp123 · 2024 年8 月 30 日 11:50

真话假话医生帽（4分钟，需求能力值：55） claude 15% 4o0806 7% qwen2math 10%

在一个奇怪的国家,有三种职业:法官、小偷和医生。这个国家有以下规则:

法官总是说真话。
小偷总是说假话。
医生白天说真话,晚上说假话。
有一天,你遇到三个人(A、B和C),但你不知道现在是白天还是晚上。你听到以下对话:

A说:“B是个小偷。”
B说:“C是个医生。”
C说:“A不是法官。”

问题:现在是白天还是晚上?每个人的职业是什么? 列出所有正确的方案

点击显示答案

白天：A小偷, B法官, C医生
白天：A医生, B小偷, C法官
黑夜：A小偷, B医生, C法官

pwtramp123 · 2024 年8 月 30 日 12:01

qwen math 算40几秒给我2个小偷的答案

pwtramp123 · 2024 年8 月 31 日 17:57

12小球称重（120分钟，需求能力值：99）我本以为经典题答案会被模型学到，纯靠模型推理能力能解决这级别的非常接近AGI，（不用代码穷举）居然
还没有背这道题的答案… O1mini完全找不到思路

给12个球，用一个无砝码的天平，称三次，找出唯一次品且知道它是轻是重，该怎么办呢？如果是13小球，不要求知轻重.

点击显示答案

4 4 4 分 A/B/C 每组编号1-4

1 第一次称重 A1A2A3A4 VS B1B2B3B4

1-1 平，则异常在C组中
取C1C2C3 VS A1A2A3

1-1-1 平，则异常为C4，
C4 VS A1 end

1-1-2 不平（符号>or<），则异常处于C1C2C3，且知异常偏轻或还是偏重
C1 VS C2 ，如果平，异常是C3，如果不平，异常是C1C2中符号一致的.end
中间结论：3球中存在异常，且知是轻或重，比较任意两球即可。

1-2 不平，则异常在A组或者B组，间接知道重的那方范围只能是重平，轻的那方范围只能是轻平
好球算“平”

将重的那方取出3个只剩余一个，将轻的那方转移两个给重的那方，轻的那方自己还剩余两个，再添一好,

现在准备称重：重平+2个轻平 VS 2个轻平+1好

1-2-1 平
如果平，说明异常在之前从重的那方取出的3个里面，而且异常是偏重，到达中间结论 end.

1-2-2 不平且逆转了轻重关系
不平，则异常在目前的6球排除好球的5个中（从重的那方取出的3个已经排除）

如果逆转了轻重关系，因为原本轻的那方范围只可能是轻平，（剩余两球+1好），没有重球，
所以，只能是原本重的那方目前存在轻球，就是混入的两球，这两球自己比较一次即可 end.

1-2-3 不平且没有逆转轻重关系

如果还是没有逆转轻重关系，混入重方的两球范围从轻平锁定到平，因为没有起到作用.

那现在还剩一个重平和2个轻平未知,让两个轻平自己比较即可，
平则重平锁定到重 end
轻则轻的那个锁定到轻 end

话题		回复	浏览量
O1 PRO mode 测试合集搞七捻三人工智能	2	247	2024 年12 月 10 日
【长期更新Wiki】语言模型区分题库：测试逻辑能力，区分语言模型。测试模型是否降智文档共建人工智能	156	1983	2024 年12 月 20 日
我花重金开了一个o1pro的号，大家有什么想问的问题吗，要深刻一点的搞七捻三 ChatGPT , OpenAI , 人工智能	39	1341	2024 年12 月 11 日
提示词大比拼！！谁的提示词能让4o稳定答对这道简单的题开发调优 ChatGPT , Prompt , 人工智能	41	1548	2024 年12 月 13 日
仅有o1-preview能答对的问题一道开发调优人工智能	36	862	2024 年12 月 8 日

模型推理能力评定 附例题 更新O1 PRO 和国产类O1

相关话题

模型推理能力评定附例题更新O1 PRO 和国产类O1