模型推理能力评定 附例题 更新O1 PRO 和国产类O1

两个杯子测水 (6分钟,需求能力值 74,若要求证明则3小时,需求能力值102)这题4O背的很厉害,要问比较大的数字。
O1mini:基本掌握原题型 两个杯子测任意水!

两个容量为a和b的杯子,没有刻度,a<b 从大桶里面 测量c升水,

比如 7 9 测8
5 13 测11

Claude

你觉得呢?几种可能的错误答案中比较荒谬的,大多时候它会回复剩余2个,

所以我倒是觉得我用的 API 掺假了… :clown_face:

有一件事情很幽默,你问任何一个模型,它们的尽量排除知识之外的"原始逻辑推理"是多少,它们都会认为比本科生还强 :grinning:

grok 真的够荒唐的 :smiling_face_with_tear:

已经准备了一些更困难的题目 ,完全无需任何前置知识,连初中都到不了

O1 性能真的暴强了,mini评个70分不过分,许多之前未发布的题目直接跳过介绍直接提问,错了,但是思路接近,你仅仅告诉它做错了,第二遍就完美解决.完全体估计85+,但是是用空间和时间换的

在这个问题中,我们有一个由 ( n \times n ) 个小正方形组成的大正方形,每个小正方形的边长相同。小正方形之间的相邻关系定义为:上下左右四个方向(不包括对角线)。我们需要找到拥有最多“开口”(相邻小正方形)的那些小正方形,并用一个公式表示这种小正方形的数量。

分析:

  1. 内部的小正方形:

    • 对于大正方形的中间部分的任何一个小正方形,它的上下左右都有相邻的小正方形。因此,这些小正方形每个都有 4 个开口。
  2. 边缘的小正方形:

    • 对于大正方形的边缘小正方形(即不在四个角上但在边界上),它们只有 3 个开口,因为一侧是大正方形的边界。
  3. 角上的小正方形:

    • 对于大正方形的四个角上的小正方形,它们只有 2 个开口,因为两个方向是边界。

问题:

我们要找的是拥有最多开口的小正方形。显然,大正方形的内部小正方形拥有 4 个开口,而边缘角落的小正方形开口数少于 4。因此,拥有最多开口的小正方形就是位于内部的那些。

公式推导:

  • 大正方形共有 ( n \times n ) 个小正方形。
  • 内部的小正方形排除掉边缘的小正方形。
  • 边缘小正方形由四个边组成,每条边上有 ( n ) 个小正方形,但四个角落会被重复计算,因此总共有 ( 4(n - 2) ) 个边缘小正方形。
  • 角落小正方形有 4 个。
  • 因此,内部的小正方形数量为:
    [
    (n-2) \times (n-2)
    ]
    这是因为边缘的每条边都排除了 2 个小正方形(上边和下边各 1 行,左边和右边各 1 列)。

结论:

拥有最多开口(4 个)的内部小正方形的数量为:
[
(n - 2) \times (n - 2)
]
这个表达式给出了拥有最多开口的小正方形的数量。

要为O1准备的题目应该到105 分值左右,大概人思考10个多小时

智者的帽子 原版 ( 5分钟, 需求:72)O1mini 得分5%吧 这就小学三年级的推理
五位智者 坐在一条长凳上。他们面朝同一个方向,一个挨着一个坐着,每人头上戴着一顶帽子。每位智者只能看到坐在自己前面的人的帽子,看不到自己和身后人的帽子,他们知道总共有7顶帽子,3黑 一白 3红
从中随机选择5项帽子给三位智者戴上.
先问第五个人(他能看见前面四个人):你能确定自己帽子的颜色吗?"他说能,
再依次问第四个人,第三个人,第二个人,第一个人,他们分别会说什么?
前面4个人,是否存在某些人无论如何都能确定自己帽子的颜色?
请你推测他们帽子的颜色

资源荟萃搞七捻三

O1mini 能做难题,但是基础逻辑仍未掌握.

测水 变体

现在有一个储水机储备充足的水,有3个没有刻度的空水壶,只知道容积分别为5升、6升和7升,
你把完全空的水壶放进机器里面,它才会装填水直到满,(你当然能做到倒干净水壶里的水,使它干燥,这一点是默认的)
特别注意:你不能把水倒进机器循环利用,一旦要把水壶里面的水倒掉,会造成浪费
如何只用这3个水壶取得总量为8升的水,并且浪费是最少的

O1mini 失败

添加一些常见谜题 基线设置在70分以上,基本不考虑测试旧模型.

顶一下顶一下,

线性 汉诺塔 ( 3分钟,需求:65 )O1 全失败
有这样一个游戏,从左到右有3个格子,3个圆盘放在最左边的格子里面,它们大小都不同,从底部到顶部按照从大到小的顺序,要求把这3个盘子按照这个顺序最终放置在最右侧的格子,但是有规则:一次只能转移一个盘子到邻近的格子,并且,大的盘子永远要求在小盘子的下面

11.20 deepseek R1 遗憾的,没有作出标志性的简单题,基础版帽子题和说谎题目 但是比 claude 稍好应该,