以O1目前的表现，LLM架构已经陷入困境，关于众多虚伪基准营造的幻境

pwtramp123 · 2024 年12 月 7 日 18:21

就目前来说，真正的思考能力应该没有小学三年级比较聪明的孩子，
最大的问题在于没有掌握基本的逻辑。
表现为对小学应用题的简单变形无能为力

我们可以想象一切智力任务，大致对应不同抽象层次的数学结构/对象以及对这些结构的操作，这些操作（思考策略）也可以说是一种搜索算法.
如果完全掌握某种简单结构以及相关策略，可以想象为覆盖对应的问题的可能性空间，
根据提问的方式，某个具体题目简单替换数字，直接代入得解，是单点，改变顺序，添加无关条件是一根线，
同类结构的复合，嵌套，也许是一个面，那么起码需要覆盖整个3维
问题->解的空间才算彻底理解该数学结构。

从机器的角度，表现为错误率.不会因为同类结构的堆叠，问题长度规模的增加而增加.

那么掌握最基本的约束/排除，辅以计算机的底层构造，对于斑马谜题，必然没有错的可能性，(现在却不能达到) 无论题目规模怎样增加，都是平凡的.

所以O1充其量在许多数学结构（其中包含比较高深的数学）覆盖了许多个点，许多根线，少量的2维平面，零星的3维碎片，但对于非常基础的数学结构，
没有任何是完全覆盖的，所以，那些所谓的高难度问题集的分数也只能是，对于特定的问题形式的拟合，是建立在沙滩之上的虚浮.

bfloat16 · 2024 年12 月 7 日 19:30

目前LLM还是预测下一个token是啥，本质就是一个概率模型。
真要取得突破，确实得改改底层架构了。

zliang.std · 2024 年12 月 7 日 19:34

当前基于数学概率的模型很难说是不是通往AGI的路，不要抱太多期望吧，能达到这个水平确确实实帮助大家做了一些工作就已经很不错了，我也很高兴大模型给了我一个研究方向，同时也颠覆了文本类算法的不少工作，让大家有活可干。。

TY233 · 2024 年12 月 7 日 20:48

现在很多人都在做世界模型，希望这条路线能跑通AGI吧

jiahut · 2024 年12 月 7 日 20:57

完全不认同楼上的观点

举个例子,

话说你觉得牛顿力学是多么完美的，拿到微观领域呢

titleROC · 2024 年12 月 7 日 21:02

以后会有那种真正理解世界的各种底层逻辑和知识架构，不是纯靠堆数据测概率蒙对问题，而是在世界运行的基础理论规则上思考问题的大模型么，就像一个真正的人一样思考

stevessr · 2024 年12 月 7 日 23:41

计算机神经网络，自然是要模仿人脑，在仿生这一块，尚未走到尽头，还能打补丁

forrsslearning · 2024 年12 月 7 日 23:52

openai不行不等於llm不行
人家奧特曼也有話要說的當初gpt4開發時我帶的是甚麼對是全明星陣容現在OPENAI剩下的人是甚麼人阿你叫我帶現在OPENAI就這個水平
再爛下去要輸llmA了輸完LLMA輸GLM
現在研發得看anthropic

Melaton · 2024 年12 月 7 日 23:56

感觉神经网络已经到头了，大多模型之间只有训练集、参数量和系统提示词的差距。现在的 LLM 就是力大砖飞，都是靠算力堆起来的，想要进步只能改进架构

Naproxen · 2024 年12 月 8 日 00:58

乐观一些。大模型已经是极重资本投入了。这三五年，哪怕卷出不来真智能，也会卷光当前的算力资源。某些问题LLM解决不了，就缝合别的架构，力大砖飞。

SomeBottle · 2024 年12 月 8 日 01:31

数据驱动+神经网络这条路对不对尚且未知，人脑目前都没完全研究清楚呢。不过现在已经知道的情况是，如果底层不优化，硬件层面很快会到达瓶颈。
感觉像 DeepSeek 这样去优化架构的方向还是挺不错的

weakchen · 2024 年12 月 8 日 01:51

我认为并非模型不好，而是不同的模型用于不同的场景模式，再加上中国人用还是喜欢用中文，虽然语言上可以使用，但并不能让模型源类型真正理解中国话的多变性，因此显得有些模型理解和输出出现问题，但是不能否认，openai在模型组上的多变性，以及算力上的高可行性

Compass · 2024 年12 月 8 日 01:55

不只是LLM，现在的神经网络都没有解决一个问题，就是推理时学习，人可以一直学习，但但就一个LLM而言，它只在训练时更新参数权重，推理的时候就只是推理，并不会真的学习到错误并改正

neo · 2024 年12 月 8 日 02:22

昨天跟佬友们讨论了一下，可能 o1 也被降智了。显示思考，其实是假的。

linghch · 2024 年12 月 8 日 04:16

感觉目前还是堆算力为主，资源不够降智来凑

songbailu · 2024 年12 月 8 日 04:51

有点强人所难了吧,试问哪个三年级学生能对所有的数学考纲考点做到100%正确,就算记住了公式也拿不了满分有时候缺的是解题技巧,出题的太精了,臣妾做不到啊.

Hantong · 2024 年12 月 8 日 05:46

算力不足吧, 又或者一个不太好的推测, OAI 只是想多赚点钱, 区别对待个人用户把算力挪给大客户?

liangdewofl · 2024 年12 月 8 日 06:36

Mark下，感觉说的有些道理，但又没给出实际方案

zcaoyao · 2024 年12 月 8 日 07:17

现在工业界和学术界都没有什么很好的实际方案，这个是没有办法的事情，只能等下一个openai了

AlphaCat · 2024 年12 月 8 日 13:14

本来就是这样的，按照目前大模型的学习方式来说，永远不可能超越人类极限。个人觉得AGI还遥遥无期。

话题		回复	浏览量
技术奇点到底会是什么样子？搞七捻三人工智能 , 纯水	6	583	2024 年12 月 13 日
openai 是否已经黔驴技穷了？搞七捻三人工智能	16	684	2024 年12 月 10 日
有没有佬友用过o1 pro，好像看看效果怎么样，值不值得买搞七捻三 ChatGPT , OpenAI , 人工智能	8	362	2024 年12 月 9 日
和ChatGPT打个视频电话 - OpenAI 12 Days - Day 6 开发调优 ChatGPT , OpenAI , 人工智能	14	1031	2024 年12 月 13 日
关于o1的发现开发调优 OpenAI , 人工智能	41	2204	2024 年12 月 12 日

以O1目前的表现，LLM架构已经陷入困境，关于众多虚伪基准营造的幻境

相关话题