以O1目前的表现,LLM架构已经陷入困境,关于众多虚伪基准营造的幻境

就目前来说,真正的思考能力应该没有小学三年级比较聪明的孩子,
最大的问题在于没有掌握基本的逻辑。
表现为对小学应用题的简单变形无能为力

我们可以想象一切智力任务,大致对应不同抽象层次的数学结构/对象 以及对这些结构的操作,这些操作(思考策略)也可以说是一种搜索算法.
如果完全掌握某种简单结构以及相关策略,可以想象为覆盖对应的问题的可能性空间
根据提问的方式,某个具体题目简单替换数字,直接代入得解,是单点,改变顺序,添加无关条件是一根线,
同类结构的复合,嵌套,也许是一个面,那么起码需要覆盖整个3维
问题->解 的空间才算彻底理解该数学结构。

从机器的角度,表现为错误率.不会因为同类结构的堆叠,问题长度规模的增加而增加.

那么掌握最基本的约束/排除,辅以计算机的底层构造,对于斑马谜题,必然没有错的可能性,(现在却不能达到) 无论题目规模怎样增加,都是平凡的.

所以O1充其量在许多数学结构(其中包含比较高深的数学)覆盖了许多个点,许多根线,少量的2维平面,零星的3维碎片,但对于非常基础的数学结构,
没有任何是完全覆盖的,所以,那些所谓的高难度问题集的分数也只能是,对于特定的问题形式的拟合,是建立在沙滩之上的虚浮.

72 个赞

目前LLM还是预测下一个token是啥,本质就是一个概率模型。
真要取得突破,确实得改改底层架构了。

7 个赞

当前基于数学概率的模型很难说是不是通往AGI的路,不要抱太多期望吧,能达到这个水平确确实实帮助大家做了一些工作就已经很不错了,我也很高兴大模型给了我一个研究方向,同时也颠覆了文本类算法的不少工作,让大家有活可干。。

4 个赞

现在很多人都在做世界模型,希望这条路线能跑通AGI吧

3 个赞

完全不认同楼上的观点

举个例子,

话说你觉得牛顿力学是多么完美的,拿到微观领域呢

1 个赞

以后会有那种真正理解世界的各种底层逻辑和知识架构,不是纯靠堆数据测概率蒙对问题,而是在世界运行的基础理论规则上思考问题的大模型么,就像一个真正的人一样思考:face_with_monocle:

2 个赞

计算机神经网络,自然是要模仿人脑,在仿生这一块,尚未走到尽头,还能打补丁

1 个赞

openai不行 不等於llm不行
人家奧特曼也有話要說的 當初gpt4開發時我帶的是甚麼對 是全明星陣容 現在OPENAI剩下的人是甚麼人阿 你叫我帶 現在OPENAI就這個水平
再爛下去要輸llmA了 輸完LLMA輸GLM
現在研發得看anthropic

8 个赞

感觉神经网络已经到头了,大多模型之间只有训练集、参数量和系统提示词的差距。现在的 LLM 就是力大砖飞,都是靠算力堆起来的,想要进步只能改进架构

1 个赞

乐观一些。大模型已经是极重资本投入了。这三五年,哪怕卷出不来真智能,也会卷光当前的算力资源。某些问题LLM解决不了,就缝合别的架构,力大砖飞。

1 个赞

数据驱动+神经网络这条路对不对尚且未知,人脑目前都没完全研究清楚呢。不过现在已经知道的情况是,如果底层不优化,硬件层面很快会到达瓶颈。
感觉像 DeepSeek 这样去优化架构的方向还是挺不错的

4 个赞

我认为并非模型不好,而是不同的模型用于不同的场景模式,再加上中国人用还是喜欢用中文,虽然语言上可以使用,但并不能让模型源类型真正理解中国话的多变性,因此显得有些模型理解和输出出现问题,但是不能否认,openai在模型组上的多变性,以及算力上的高可行性

不只是LLM,现在的神经网络都没有解决一个问题,就是推理时学习,人可以一直学习,但但就一个LLM而言,它只在训练时更新参数权重,推理的时候就只是推理,并不会真的学习到错误并改正

1 个赞

昨天跟佬友们讨论了一下,可能 o1 也被降智了。显示思考,其实是假的。

12 个赞

感觉目前还是堆算力为主,资源不够降智来凑

有点强人所难了吧,试问哪个三年级学生能对所有的数学考纲考点做到100%正确,就算记住了公式也拿不了满分有时候缺的是解题技巧,出题的太精了,臣妾做不到啊.

算力不足吧, 又或者一个不太好的推测, OAI 只是想多赚点钱, 区别对待个人用户把算力挪给大客户?

Mark下,感觉说的有些道理,但又没给出实际方案

现在工业界和学术界都没有什么很好的实际方案,这个是没有办法的事情,只能等下一个openai了

本来就是这样的,按照目前大模型的学习方式来说,永远不可能超越人类极限。个人觉得AGI还遥遥无期。