关于深度思考模型，你应该知道的一些东西

MatsuzakaSato · 2025 年3 月 2 日 12:54

依然是一篇硬货帖，就像我中午煎的牛排一样硬。

这只是一篇通俗的综述。如果你是技术大佬，那或许Deepseek的论文原文能够为你提供更多技术细节。

何为Self-prompt

Self-Prompt（自我提示）是指大语言模型在生成过程中，通过自己生成的中间文本引导后续内容生成的一种技术。

我们之前提到，Transformer会将模型的输出Tokens累加到注意力矩阵中，影响模型的后续输出。也就是说，从注意力矩阵角度来说，你向模型提供的上下文，或者模型自己输出的文本，它们都是等价的。

当然，我之前同样提到过，在实际的应用中，不同的上下文来源对模型的影响不尽相同。其中，属模型自己的输出（即Assistant角色的输出）对Token预测的影响较大。这就是为什么，当你尝试各种Prompt注入技术都不太好使的时候，可以尝试一下通过Assistant答复进行上下文污染。

Self-prompt有利有弊。

通常来说，模型的自我提示更不容易出现Prompt过拟合的情况，在多数情况下相较于来自System/User，以及人工设计的Prompt，能够有更高的鲁棒性。

然而，很多模型可能会出现一种叫做“ 延续性偏见 （continuation bias）”的问题，即模型输出的前期可能因为某些原因（尤其是幻觉）输出某些错误内容，而在继续输出的过程中，模型会倾向于顺着这条错误路径继续输出，导致误导加深，而不是自我否定，改正错误。这是因为，模型往往更加在意前后文的连贯与通顺，强化一些尽管不合理但高奖励的行为，有可能忽视内容的正确性。

“深度思考”的原理

深度思考，从表征来看，是模型是一个特定的标签内进行独立思考，然后输出最终答案。

其实从本质上说，模型的深度思考本身也是一种Self-prompt，它延续和深化了Self-prompt的一系列优点，从而让模型在缺乏合理的外部提示词的情况下，仍然能够发挥出更多潜力，输出优质内容。

模型的深度思考功能实际上并不是对于模型网络架构的创新，而是一种强化学习手段。

这种方式通过强化学习，让模型能够在一段标签内对问题进行长时间的自我分析，使得模型获得以下特点：

允许自我反驳，模型可以意识到自己之前的错误并改正。Deepseek的论文中将其形象地称为“啊哈时刻（Aha Moment）”。模型的思考过程中会告诉你，哦不好意思，我刚才错了，我要重新分析一下…诸如此类。
较低的结束标签（End of Sentence）输出权重，让模型面对复杂问题时，尽可能地丰富思考过程。

DeepSeek-Reasoning模型的论文提到了两个模型——

DeepSeek-R1-Zero：一个纯粹通过强化学习训练的模型，没有经过监督微调，模型就获得了专注思考的能力，并且在AIME 2024考试中顺利地将准确率从15.6%提升到71.0%
DeepSeek-R1：在此基础上，仅提供少量冷启动数据进行强化学习，模型即达到了OpenAI-O1-1217相当水准的表现。

有了深度思考，提示词设计可以退出历史舞台了吗？

有些人认为，既然深度思考模型具有这么多优点，并且能在Zero-prompt的情况下获得同样高质量的回答，这是否意味着我们就可以放弃提示词设计工作了？

我的看法是否定的。首先，模型的自我提示并不具备定向性，通过Prompt设计明确工作目标和输出格式仍然非常重要；其次，对于特定的领域和特定的任务，仅依赖模型自我提示，不一定能够精确抓住问题重点。

因此，对待深度思考模型的兴起，最好的态度是学习了解原理，同时充分利用提示词和深度思考流程的优点，使二者在工作中相得益彰。

References

DeepSeek-AI et al. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” ArXiv abs/2501.12948 (2025): n. pag.

看完麻烦帮忙点点认可，虽然不知道有啥用（

LessIsMore · 2025 年3 月 2 日 12:55

牛排呢？

kryptos42 · 2025 年3 月 2 日 12:56

虽然看不懂，但是我大感震撼！

MatsuzakaSato · 2025 年3 月 2 日 13:00

吃掉惹

Luis · 2025 年3 月 2 日 13:02

好干的货啊，砂糖太强了！感谢一下分享！

LessIsMore · 2025 年3 月 2 日 13:06

懂了，吃了硬的牛排，才能写出硬货文章

flyaway · 2025 年3 月 2 日 13:06

感谢分享，又学到了！

I-IronMan · 2025 年3 月 2 日 13:10

太硬了，要坏掉惹

wq1234 · 2025 年3 月 2 日 13:11

感谢分享，又学到了！

greenrock · 2025 年3 月 2 日 13:13

牛排图要配上，不然怎么对比，怎么知道这是硬货、干货

Reno · 2025 年3 月 2 日 13:17

感谢佬友的文章，用C4通俗化了一下

另外可以讲解下 关于煎牛排，我们应该知道的一些东西

Dabble · 2025 年3 月 2 日 13:18

谢分享，技术太快，消化一时跟不上，需要反复咀嚼，楼主正好就提供了反刍的功能

另外，有很多人在争执 prompt engineering 是否还有必要，好像难解难分的样子
有趣的是，最近出来一本很火的书，提出了 LLM engineering 的概念，上面的争论好像就迎刃而解了…

user352 · 2025 年3 月 2 日 13:18

先赞再看

handsome · 2025 年3 月 2 日 13:24

还得是砂糖！

yulin · 2025 年3 月 2 日 13:28

学习了, 我之前感觉思维模型就像是收集了很多的COT模板, 然后AI经过思考过后调用最符合的一个, (我之前一直以为就是这么做的…)

老实我一直感觉有一些问题, 拿R1举例, AI的 Self-prompt 其实和COT流程差距不大, 目的都是引导AI逐步思考, 这确实可以明显提升输出答案的质量, 但是一来模型的真正能力并没有得到提升. Self-prompt其实很讨巧.

二来是当你尝试在推理模型的prompt 里再注入COT或者详细的分解任务时, 模型混淆几率和产生幻觉的几率会加剧, 而且输出的答案质量也会变低(至少在我这是这样的).

这变得… 很不灵活, 反正我不太喜欢, 但是当我不想写任何prompt 的时候, 它的优势就发挥出来了.

slashkkk · 2025 年3 月 2 日 13:28

得益于有个好的 v3 基模～

Xcating · 2025 年3 月 2 日 13:39

补充：
DS论文精读解析.pdf (3.2 MB)
DS术语解释需求.pdf (2.4 MB)

waffie · 2025 年3 月 2 日 13:53

这个精度是哪个平台？

Compass · 2025 年3 月 2 日 13:55

支持技术分享~

Stevenxxzg · 2025 年3 月 2 日 14:02

讲的真好，佬解决了我一个很大的疑问，就是为什么r1zero是比r1更有潜力的模型

话题		回复	浏览量
使用Deepseek-R1写作时要慎重——幻觉率太高资源荟萃 DeepSeek , 人工智能	108	3128	2025 年3 月 14 日
大模型阉割的几种手段开发调优人工智能	29	1249	2025 年3 月 18 日
目前最适合科研学习/文献阅读用途的AI大模型(API)是什么？搞七捻三人工智能 , 快问快答	24	750	2025 年3 月 21 日
DeepSeek，也许不是最好，但一定有细节打动你开发调优纯水	19	386	2025 年3 月 22 日
Deepseek-V3 + CoT思维链 + RAG知识库！我的AI现在强的可怕搞七捻三 DeepSeek , 人工智能 , 作品集	583	28410	2025 年3 月 30 日