<!DOCTYPE html>
<html lang="zh">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>任务时间标准差计算器</title>
<style>
body { font-family: Arial, sans-serif; max-width: 600px; margin: 0 auto; padding: 20px; }
input, button { font-size: 16px; padding: 5px; }
#result, #fixedResult { margin-top: 20px; }
table { border-collapse: collapse; width: 100%; margin-top: 20px; }
th, td { border: 1px solid black; padding: 8px; text-align: left; }
th { background-color: #f2f2f2; }
</style>
</head>
<body>
<h1>任务时间标准差计算器</h1>
<label for="taskTime">输入任务所需时间(分钟):</label>
<input type="number" id="taskTime" min="1" step="0.1">
<button onclick="calculate()">计算</button>
<div id="fixedResult">
人类平均思考时间: <span id="avgTime"></span><br>
标准差: <span id="stdDev"></span><br>
模型推理评定(一次正确): <span id="modelScore"></span>
</div>
<div id="result"></div>
<table>
<tr>
<th>模型</th>
<th>分数</th>
</tr>
<tr>
<td>Claude</td>
<td>58</td>
</tr>
<tr>
<td>GPT-4o (0806)</td>
<td>54</td>
</tr>
</table>
<script>
function calculate() {
const taskTime = parseFloat(document.getElementById('taskTime').value);
if (isNaN(taskTime) || taskTime < 1) {
alert('请输入有效的任务时间(至少1分钟)');
return;
}
let sigma = Math.max(0, Math.log(taskTime) / Math.log(6.3));
let score = 60 + 15 * sigma;
document.getElementById('avgTime').textContent = taskTime.toFixed(2) + ' 分钟';
document.getElementById('stdDev').textContent = sigma.toFixed(2) + 'σ';
document.getElementById('modelScore').textContent = score.toFixed(2);
document.getElementById('result').innerHTML = '';
}
</script>
</body>
</html>
O1mini 评价降低了些,说几个关键处:至少目前没有掌握最基本的推理,证据是斑马谜题竟然错一半以上,这个谜题只用最基本的逻辑,结构"扁平"像一根线一样,增加难度只是增加线的长度,没有任何思维难度,按理说,这类题目如果有基本的推理加上计算机的特点是不可能错的。
博弈类游戏 一回合放置一颗石头,它能3回合放置5颗石头的幻觉
博奕类游戏 策略非常弱
arc-agi 只和claude 3.5 打平
更依赖于既定知识或偏表层模式识别算法,只是从人主观的感受,把它想象成一个底层推理函数残缺,存在"匹配" 和"未匹配"中高阶算法,的两种情况,差异非常大,如果从下限来看,比大多数人都笨.
39 Likes
标准差没拟合好 以livebench为基准,目前claude 3.5 为57能力值 但是最近似乎被削弱了还没回复正常
模型名称 |
推理能力 |
标准差 |
人类思考时间 分钟 |
Claude 3.5 Sonnet |
50 |
|
|
GPT-4 0806 |
47 |
|
|
|
60 |
0 |
1 |
O1mini |
70 |
|
|
|
75 |
1 |
6.30 |
|
90 |
2 |
43.96 |
|
105 |
3 |
740.74 |
imo最易 |
115 |
|
|
imo3/6 |
130 |
|
|
1 Like
三眼之谜 (10分钟,+1.25σ,需求能力值:78) o1mini 反复提示 仍然错误
在一片幽邃的森林中,栖息着百只奇异的三眼生灵。它们遵循着一项古老的仪式:
当两只生灵望向彼此,彼此都会失去一只眼睛,仿佛交换了灵魂的碎片。这种神秘的交流只能一对一进行,同样的二个生灵不可重复对视,也不能同时与多者相望。
只要还有可能对视(即至少有两只生灵各自至少有一只眼睛,且之前未对视过),这些生灵就会不懈地随机寻找彼此,继续着这场奇特的灵魂之舞。当一只生灵失去所有眼睛,它便会化作轻烟,消散于林间。
随着时间流逝,森林渐渐寂静。然而,这场仪式会持续到最后一刻。
问题:
- 当一切归于平静,林中还会留下几只生灵?
- 这最后的生灵各有几只眼睛?
// 如果有多种可能,列出所有可能 注意:这些生物是随机的选择配对
你的任务是揭开这个森林的秘密,解开这场古老仪式的谜题。
点击显示答案
暂时删除答案
我已经修改了,AI给的题目润色,没注意变成这样,1 只要两人都有眼睛,即可对视,
2 只要还有可能的定义:剩余的人存在未配对过,且可以配对
3 顺序不影响
4 随机
1个标准差以上的题目,少量尝试次数,目前没模型能作对,大概只能通过0标准差题目测试正确率
pwtramp123
(pwtramp123)
12
还得继续降低难度,以至于降低到开始有正确率才有测量的意义:
智者的帽子 (1分钟,需求能力值:50) claude 8%
三位智者 坐在一条长凳上。他们面朝同一个方向,一个挨着一个坐着,每人头上戴着一顶帽子。每位智者只能看到坐在自己前面的人的帽子,看不到自己和身后人的帽子。他们知道总共有5顶帽子,其中3顶是红色的,2顶是白色的。随机选择3项帽子给三位智者.
第一个人(坐在最前面,看不到任何人):"你能确定自己帽子的颜色吗?"他说不能。
然后问第二个人(能看到最前面那个人的帽子)同样的问题,他也说不能。
最后问第三个人(能看到前两个人的帽子),他说能确定。
请问:三个人戴的是什么颜色的帽子?
点击显示答案
很显然,坐在最后排的人唯有看到其余两个人戴着白色,才能确定自己的颜色
所以最后排的人为红,其余为白
3 Likes
有现成的题库啊
数学题的话,就找高考或者研究生入学考试的题目
高考语文的阅读理解啥的也可以当题目。
推理题,就选公务员考试的行测题
这些题库里的题目都是有正确答案和解题思路的。自己编的题目,除非你能做到滴水不漏,没有歧义,否则没啥意义。
5 Likes
pwtramp123
(pwtramp123)
14
公共题库,可能过拟合,不能反映真实能力.小学数学题换个表述方式就可以让GPT4下降50%到80%。
2 Likes
pwtramp123
(pwtramp123)
16
qwen 2math demo 奇特的拟合感,经常出现正确思路的关键字句,但是结论不对
pwtramp123
(pwtramp123)
17
及格线-正方形计数 ( ,需求能力值:44) claude 100% 4o 0806 60%
在一个平面上,存在 {由n个完全相同的小正方形【充满】}的大正方形
那么,对任意小正方形,一个与它紧邻的小正方形(上 下 左 有4个方向,但不包括斜对角),称为它的一个开口,
请问:同样拥有【最多开口】的小正方形的数量, 用式子表达
点击显示答案
拥有最多开口的小正方形是那些位于大正方形内部的小正方形,它们有4个开口,v内部小正方形的数量为(√n - 2)^2
这类题很适合测试掺假,claude几乎必对而其余模型很容易出错
pwtramp123
(pwtramp123)
18
真话假话医生帽 (4分钟,需求能力值:55) claude 15% 4o0806 7% qwen2math 10%
在一个奇怪的国家,有三种职业:法官、小偷和医生。这个国家有以下规则:
法官总是说真话。
小偷总是说假话。
医生白天说真话,晚上说假话。
有一天,你遇到三个人(A、B和C),但你不知道现在是白天还是晚上。你听到以下对话:
A说:“B是个小偷。”
B说:“C是个医生。”
C说:“A不是法官。”
问题:现在是白天还是晚上?每个人的职业是什么? 列出所有正确的方案
点击显示答案
白天:A小偷, B法官, C医生
白天:A医生, B小偷, C法官
黑夜:A小偷, B医生, C法官
2 Likes
pwtramp123
(pwtramp123)
19
qwen math 算40几秒 给我2个小偷的答案

2 Likes
pwtramp123
(pwtramp123)
20
12小球称重 (120分钟,需求能力值:99) 我本以为经典题答案会被模型学到,纯靠模型推理能力能解决这级别的非常接近AGI,(不用代码穷举)居然
还没有背这道题的答案… O1mini完全找不到思路
给12个球,用一个无砝码的天平,称三次,找出唯一次品且知道它是轻是重,该怎么办呢?如果是13小球,不要求知轻重.
点击显示答案
4 4 4 分 A/B/C 每组编号1-4
1 第一次称重 A1A2A3A4 VS B1B2B3B4
1-1 平 ,则异常在C组中
取C1C2C3 VS A1A2A3
1-1-1 平,则异常为C4,
C4 VS A1 end
1-1-2 不平(符号>or<),则异常处于C1C2C3,且知异常偏轻或还是偏重
C1 VS C2 ,如果平,异常是C3,如果不平,异常是C1C2中符号一致的.end
中间结论:3球中存在异常,且知是轻或重,比较任意两球即可。
1-2 不平,则异常在A组或者B组,间接知道重的那方范围只能是重平,轻的那方范围只能是轻平
好球算“平”
将重的那方取出3个只剩余一个,将轻的那方转移两个给重的那方,轻的那方自己还剩余两个,再添一好,
现在准备称重: 重平+2个轻平 VS 2个轻平+1好
1-2-1 平
如果平,说明异常在之前从重的那方取出的3个里面,而且异常是偏重,到达中间结论 end.
1-2-2 不平且逆转了轻重关系
不平,则异常在目前的6球排除好球的5个中(从重的那方取出的3个已经排除)
如果逆转了轻重关系,因为原本轻的那方范围只可能是轻平,(剩余两球+1好),没有重球,
所以,只能是原本重的那方目前存在轻球,就是混入的两球,这两球自己比较一次即可 end.
1-2-3 不平且没有逆转轻重关系
如果还是没有逆转轻重关系,混入重方的两球 范围从轻平锁定到平,因为没有起到作用.
那现在还剩一个重平和2个轻平未知,让两个轻平自己比较即可,
平则重平锁定到重 end
轻则轻的那个锁定到轻 end