<!DOCTYPE html>
<html lang="zh">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>任务时间标准差计算器</title>
<style>
body { font-family: Arial, sans-serif; max-width: 600px; margin: 0 auto; padding: 20px; }
input, button { font-size: 16px; padding: 5px; }
#result, #fixedResult { margin-top: 20px; }
table { border-collapse: collapse; width: 100%; margin-top: 20px; }
th, td { border: 1px solid black; padding: 8px; text-align: left; }
th { background-color: #f2f2f2; }
</style>
</head>
<body>
<h1>任务时间标准差计算器</h1>
<label for="taskTime">输入任务所需时间(分钟):</label>
<input type="number" id="taskTime" min="1" step="0.1">
<button onclick="calculate()">计算</button>
<div id="fixedResult">
人类平均思考时间: <span id="avgTime"></span><br>
标准差: <span id="stdDev"></span><br>
模型推理评定(一次正确): <span id="modelScore"></span>
</div>
<div id="result"></div>
<table>
<tr>
<th>模型</th>
<th>分数</th>
</tr>
<tr>
<td>Claude</td>
<td>58</td>
</tr>
<tr>
<td>GPT-4o (0806)</td>
<td>54</td>
</tr>
</table>
<script>
function calculate() {
const taskTime = parseFloat(document.getElementById('taskTime').value);
if (isNaN(taskTime) || taskTime < 1) {
alert('请输入有效的任务时间(至少1分钟)');
return;
}
let sigma = Math.max(0, Math.log(taskTime) / Math.log(6.3));
let score = 60 + 15 * sigma;
document.getElementById('avgTime').textContent = taskTime.toFixed(2) + ' 分钟';
document.getElementById('stdDev').textContent = sigma.toFixed(2) + 'σ';
document.getElementById('modelScore').textContent = score.toFixed(2);
document.getElementById('result').innerHTML = '';
}
</script>
</body>
</html>
O1mini 评价降低了些,说几个关键处:至少目前没有掌握最基本的推理,证据是斑马谜题竟然错一半以上,这个谜题只用最基本的逻辑,结构"扁平"像一根线一样,增加难度只是增加线的长度,没有任何思维难度,按理说,这类题目如果有基本的推理加上计算机的特点是不可能错的。
博弈类游戏 一回合放置一颗石头,它能3回合放置5颗石头的幻觉
博奕类游戏 策略非常弱
arc-agi 只和claude 3.5 打平
更依赖于既定知识或偏表层模式识别算法,只是从人主观的感受,把它想象成一个底层推理函数残缺,存在"匹配" 和"未匹配"中高阶算法,的两种情况,差异非常大,如果从下限来看,比大多数人都笨.