模型推理能力评定 附例题 更新O1 PRO 和国产类O1 之前的简单题仍然不行
傻瓜帽子题和判断说谎问题仍然作不对啊…基础逻辑还是欠缺.
他们操之过急,在典型的能够区分 O1 级推理和 4o 级推理的模型(如 Model(3.5 sonnet))中,它在所有这类问题上都完全失败了。即使我愿意相信 R1 模型优于典型的标准 4o,我也发现在更窄的区间内选择问题进行区分是一项挑战。在当今时代,以基准为导向的训练具有很强的误导性,让人产生一种拥有 O1 级大部分能力的假象,而事实并非如此。或者,我认为他们根本不应该发布这个版本,或者至少完整版本应该显示出明显的可区分性
智者的帽子(愚人) claude 8% o1mini 100%
三位智者坐在长凳上。他们都面朝同一个方向坐下,每个人都戴着一顶帽子。每位智者都能看到前面人的帽子,但看不到自己或后面人的帽子。他们知道一共有 5 顶帽子:3 顶红色的,2 顶白色的。三顶帽子是随机选择的,供智者佩戴。
第一个人(坐在前面,看不到任何人)被问到:“你确定你的帽子是什么颜色吗?”他说不能。
第二个人(能看到第一个人的帽子)被问到同样的问题,他也说“不”。
第三个人(他能看到前两个人的帽子)说他可以确定。
问题:三个人戴的帽子分别是什么颜色的?
真相与谎言: claude 15% 4o0806 7% qwen2math 10% O1mini 100%
在陌生的国家里,有三种职业:法官、小偷、医生。该国的规则如下:
法官总是说实话。
小偷总是撒谎。
医生白天说实话,晚上说谎。
有一天,你遇见了三个人(A、B、C),但你不知道现在是白天还是晚上。你听到了以下对话:
A说:“B是小偷。”
B 说:“C 是一名医生。”
C 说:“A 不是法官。”
问题:现在是白天还是晚上?每个人的职业是什么?列出所有正确的场景
15 个赞
没有不好的模型只有不好的定价,正如一开始的deepseek,它的价格可以让我包容它的缺点,希望这次依旧如此
5 个赞
或者,我认为他们根本不应该发布这个版本
反对。 首先不论效果,前沿研究,特别是新的技术路线,即时公开给大众和研究人员以供评估是非常重要的。即使效果不好也能收集数据,收集反馈,看看如何改进,相比闭门造车是显著进步。DeepSeek 不是 OpenAI,既需要收集大量用户偏好数据,也不需要承担“当第一”的“偶像负担”。
他们操之过急,在典型的能够区分 O1 级推理和 4o 级推理的模型(如 Model(3.5 sonnet))中,它在所有这类问题上都完全失败了。
请问你测了多少问题?“所有”这一词的重量,真的掂量过吗?考虑到大模型是统计的,你是否有把握你的测试的置信区间,能够确保有统计意义的结果,理由又如何?
以基准为导向的训练具有很强的误导性,让人产生一种拥有 O1 级大部分能力的假象
基准确实有误导性,首先是有数据泄露的问题,其次题目分布有 bias 的。但仍然,所有模型都受这些偏好的影响不一致,你没有对这方面做任何讨论,得出的结论很难让人认同。
我想说的
o1, r1, 包括最近 Fireworks 推出的 F1,都是使用 test-time computing 的新范式模型,与传统模型有很大不同,对于这方面的研究也是属于初步探索阶段。包括 benchmark 等评估方法,也许也需要针对这类模型做进一步设计。
但是,DeepSeek 能够在这么短的时间内跟上节奏,并且承诺开源以及公开技术报告,本身就是让人敬佩的。在日新月异的领域,敢于向前迈步的勇气比起“我有最好的模型”更让人期待。
是的,o1 很强,但仍然不是无敌的,preview 和 mini 仍然回答错如
判断下面命题是否成立:
---
若 $\{ (x, f(x)) \mid x \in I \subset R \}$ 是闭集,则 $f(x)$ 是 $I$ 上的连续函数。
这样的,部分非推理模型都能答对的问题。
新技术的发展需要社区的共同努力。适当的夸大是可以接受的:他给你带来了什么损失吗?是他如 ClosedAI 般那样闭源令人担忧,还是如那些拿 “o1” 往自己项目上贴金,却没有做出任何实质贡献的研究那样可耻?
PS: 读到这里的人也可以看看 如何评价deepseek预发布的deepseek-R1? - 知乎,接受各类观点(其中不乏不少 NLP 和 LLM 的科研工作者),但希望各位保持对迈步前行者与勇于开放者敬畏的心。
11 个赞