关于深度思考模型,你应该知道的一些东西

依然是一篇硬货帖,就像我中午煎的牛排一样硬。

这只是一篇通俗的综述。如果你是技术大佬,那或许Deepseek的论文原文能够为你提供更多技术细节。

何为Self-prompt

Self-Prompt(自我提示)是指大语言模型在生成过程中,通过自己生成的中间文本引导后续内容生成的一种技术。

我们之前提到,Transformer会将模型的输出Tokens累加到注意力矩阵中,影响模型的后续输出。也就是说,从注意力矩阵角度来说,你向模型提供的上下文,或者模型自己输出的文本,它们都是等价的。

当然,我之前同样提到过,在实际的应用中,不同的上下文来源对模型的影响不尽相同。其中,属模型自己的输出(即Assistant角色的输出)对Token预测的影响较大。这就是为什么,当你尝试各种Prompt注入技术都不太好使的时候,可以尝试一下通过Assistant答复进行上下文污染。

Self-prompt有利有弊。

通常来说,模型的自我提示更不容易出现Prompt过拟合的情况,在多数情况下相较于来自System/User,以及人工设计的Prompt,能够有更高的鲁棒性。

然而,很多模型可能会出现一种叫做“ 延续性偏见 (continuation bias)”的问题,即模型输出的前期可能因为某些原因(尤其是幻觉)输出某些错误内容,而在继续输出的过程中,模型会倾向于顺着这条错误路径继续输出,导致误导加深,而不是自我否定,改正错误。这是因为,模型往往更加在意前后文的连贯与通顺,强化一些尽管不合理但高奖励的行为,有可能忽视内容的正确性。

“深度思考”的原理

深度思考,从表征来看,是模型是一个特定的标签内进行独立思考,然后输出最终答案。

其实从本质上说,模型的深度思考本身也是一种Self-prompt,它延续和深化了Self-prompt的一系列优点,从而让模型在缺乏合理的外部提示词的情况下,仍然能够发挥出更多潜力,输出优质内容。

模型的深度思考功能实际上并不是对于模型网络架构的创新,而是一种强化学习手段。

这种方式通过强化学习,让模型能够在一段标签内对问题进行长时间的自我分析,使得模型获得以下特点:

  • 允许自我反驳,模型可以意识到自己之前的错误并改正。Deepseek的论文中将其形象地称为“啊哈时刻(Aha Moment)”。模型的思考过程中会告诉你,哦不好意思,我刚才错了,我要重新分析一下…诸如此类。
  • 较低的结束标签(End of Sentence)输出权重,让模型面对复杂问题时,尽可能地丰富思考过程。

DeepSeek-Reasoning模型的论文提到了两个模型——

DeepSeek-R1-Zero:一个纯粹通过强化学习训练的模型,没有经过监督微调,模型就获得了专注思考的能力,并且在AIME 2024考试中顺利地将准确率从15.6%提升到71.0%
DeepSeek-R1:在此基础上,仅提供少量冷启动数据进行强化学习,模型即达到了OpenAI-O1-1217相当水准的表现。

有了深度思考,提示词设计可以退出历史舞台了吗?

有些人认为,既然深度思考模型具有这么多优点,并且能在Zero-prompt的情况下获得同样高质量的回答,这是否意味着我们就可以放弃提示词设计工作了?

我的看法是否定的。首先,模型的自我提示并不具备定向性,通过Prompt设计明确工作目标和输出格式仍然非常重要;其次,对于特定的领域和特定的任务,仅依赖模型自我提示,不一定能够精确抓住问题重点。

因此,对待深度思考模型的兴起,最好的态度是学习了解原理,同时充分利用提示词和深度思考流程的优点,使二者在工作中相得益彰。

References

  • DeepSeek-AI et al. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” ArXiv abs/2501.12948 (2025): n. pag.

看完麻烦帮忙点点认可,虽然不知道有啥用(

75 个赞

牛排呢?

5 个赞

虽然看不懂,但是我大感震撼!

1 个赞

吃掉惹 :bili_062:

好干的货啊,砂糖太强了!感谢一下分享!

懂了,吃了硬的牛排,才能写出硬货文章

1 个赞

感谢分享,又学到了!

太硬了,要坏掉惹 :tired_face:

1 个赞

感谢分享,又学到了!

牛排图要配上,不然怎么对比,怎么知道这是硬货、干货

感谢佬友的文章,用C4通俗化了一下 :yum:

另外可以讲解下 关于煎牛排,我们应该知道的一些东西

3 个赞

谢分享,技术太快,消化一时跟不上,需要反复咀嚼,楼主正好就提供了反刍的功能

另外,有很多人在争执 prompt engineering 是否还有必要,好像难解难分的样子
有趣的是,最近出来一本很火的书,提出了 LLM engineering 的概念,上面的争论 好像就迎刃而解了…

先赞再看:+1:

还得是砂糖!

学习了, 我之前感觉思维模型就像是收集了很多的COT模板, 然后AI经过思考过后调用最符合的一个, (我之前一直以为就是这么做的…)

老实我一直感觉有一些问题, 拿R1举例, AI的 Self-prompt 其实和COT流程差距不大, 目的都是引导AI逐步思考, 这确实可以明显提升输出答案的质量, 但是一来模型的真正能力并没有得到提升. Self-prompt其实很讨巧.

二来是当你尝试在推理模型的prompt 里再注入COT或者详细的分解任务时, 模型混淆几率和产生幻觉的几率会加剧, 而且输出的答案质量也会变低(至少在我这是这样的).

这变得… 很不灵活, 反正我不太喜欢, 但是当我不想写任何prompt 的时候, 它的优势就发挥出来了.

得益于有个好的 v3 基模~

补充:
DS论文精读解析.pdf (3.2 MB)
DS术语解释需求.pdf (2.4 MB)

4 个赞

这个精度是哪个平台?

支持技术分享~

讲的真好,佬解决了我一个很大的疑问,就是为什么r1zero是比r1更有潜力的模型