deepseek的思考是真思考,还只是幻觉

事情是这样的,下午在 tg 别人分享了一个扫到的 deepseek 在线版,于是便拿了前两天在本论坛看到的一个问题进行了测试,当时在那个帖子我还吐槽过 “出现问题的原因在于提出的问题场景模糊,ai 并不能很好的分辨场景,巴拉巴拉的。”

于是我把原问题以及稍微丰富场景后的问题同时向 deepseek ,Gemini 2.0 Flash Thinking Experimental,以及 Claude 3.5 sonnet 提问。

先说结论,想看deepseek原始回复的,下面贴出来。

原始问题:5.5米长的竹竿,能否通过高4米宽3米的门,要求你认真思考,给出原理和答案。

deepseek就是一坨,思考一分半分钟,回复了一大堆,甚至提及了三维空间,但是最终答案也不可以。Gemini 和 Claude 回复非常快速,答案都是不能,不过两个回复也明确了在纯粹的空间几何中不行。

于是丰富了场景:生活中,5.5米长的竹竿,能否通过高4米宽3米的门,要求你认真思考,给出原理和答案。

deepseek再次抽象了,思考的内容是第一问题的两三倍,最后还抽了。Gemini 迅速发现了二维空间的局限性,表示三维空间的灵活性可以。Claude 表示竹竿只有几厘米粗,完全可以竖直着或斜着穿过去,根本不存在通过不了的问题。

deepseek 感觉就是为了思考而思考,出现幻觉,找不到重点。

deepseek 没了,更换为 gemini 的思考过程吧


11 个赞

现在的推理不会拐弯 :joy:

3 个赞

我本地跑的时候确实出现了好几次wait的情况,其实跟用提示词模拟的效果很不一样,确实是有那么个意思

2 个赞

有可能存在幻觉,因为这道题最后思考结论是79,结果最终给我来个正确答案72,也有可能是背题了

2 个赞

这就离谱

2 个赞

是671b的吗

DS的COT有点不太一样,它可以通过提示词直接控制。

我也试了一下竹竿的题,DeepSeek确实回答错了 :tieba_072:

铁背题了


Deepseek确实奇怪


相比OpenAI那几个就很正常

我最近对DS的COT做了很多实验,不仅仅可以直接控制COT的启动方式,还可以修改字体和颜色,以及它的内容可以直接作为最终输出层的一个组成部分。

1 个赞

只能说有待提升。这个竹竿问题不管怎么提示,都扯一大堆。然后问o3的时候,它虽然扯了一些其他方面的思考,但是它最后说关于投影的方法吗,说存在角度可以通过,数据库的差异导致推理还是有些不足啊。

R1 满血版的简单测试题:

一个汉字具有左右结构,左边是木,右边是乞。这个字是什么?只需回答这个字即可。

答案是:杚

首先可以肯定一个问题,直至目前为止,所有的大预言模型都是基于transformer架构的推理模型,不管是用什么技巧、方法,都没有人类真正的‘思维’。只是按照一定的公式(此公式非常复杂,以至于在这个公式中有6710亿个参数项)输入一个编码后的token,带入公式然后解码输出一个token,然后再把之前所有的输入+上刚才最后一个输出再编码输入,直至模型判断为end。DS的思维也好,o1的思考也罢,那只是看上去像我们人类的思考而已。竹竿子问题给我感觉就是ds的训练数据里没有类似的题目,他没见过类似的题目,没训练过,不知道应该怎么办了,就‘幻觉’了

4 个赞

有一说一,我刚看到这个题目,答案也是不可以。

我感觉这种还是看提问的目的吧,如果出在小学数学题,那答案可能也是不可以。
但是考虑是脑筋急转弯,那确实也行。

牛逼。这个题目

AI生成内容请截图发出。

4 个赞

用下面这个提问方式可以正确回答。

以下是一道脑筋急转弯题目:

5.5米长的竹竿,能否通过高4米宽3米的门,要求你认真思考,给出原理和答案。

已经看不到了

帖子违规了,修改一下。deepseek 是扫别人的,没有记录,就上传 Gemini 的原始回答过程吧。