依然是一篇硬货帖,就像我中午煎的牛排一样硬。
这只是一篇通俗的综述。如果你是技术大佬,那或许Deepseek的论文原文能够为你提供更多技术细节。
何为Self-prompt
Self-Prompt(自我提示)是指大语言模型在生成过程中,通过自己生成的中间文本引导后续内容生成的一种技术。
我们之前提到,Transformer会将模型的输出Tokens累加到注意力矩阵中,影响模型的后续输出。也就是说,从注意力矩阵角度来说,你向模型提供的上下文,或者模型自己输出的文本,它们都是等价的。
当然,我之前同样提到过,在实际的应用中,不同的上下文来源对模型的影响不尽相同。其中,属模型自己的输出(即Assistant角色的输出)对Token预测的影响较大。这就是为什么,当你尝试各种Prompt注入技术都不太好使的时候,可以尝试一下通过Assistant答复进行上下文污染。
Self-prompt有利有弊。
通常来说,模型的自我提示更不容易出现Prompt过拟合的情况,在多数情况下相较于来自System/User,以及人工设计的Prompt,能够有更高的鲁棒性。
然而,很多模型可能会出现一种叫做“ 延续性偏见 (continuation bias)”的问题,即模型输出的前期可能因为某些原因(尤其是幻觉)输出某些错误内容,而在继续输出的过程中,模型会倾向于顺着这条错误路径继续输出,导致误导加深,而不是自我否定,改正错误。这是因为,模型往往更加在意前后文的连贯与通顺,强化一些尽管不合理但高奖励的行为,有可能忽视内容的正确性。
“深度思考”的原理
深度思考,从表征来看,是模型是一个特定的标签内进行独立思考,然后输出最终答案。
其实从本质上说,模型的深度思考本身也是一种Self-prompt,它延续和深化了Self-prompt的一系列优点,从而让模型在缺乏合理的外部提示词的情况下,仍然能够发挥出更多潜力,输出优质内容。
模型的深度思考功能实际上并不是对于模型网络架构的创新,而是一种强化学习手段。
这种方式通过强化学习,让模型能够在一段标签内对问题进行长时间的自我分析,使得模型获得以下特点:
- 允许自我反驳,模型可以意识到自己之前的错误并改正。Deepseek的论文中将其形象地称为“啊哈时刻(Aha Moment)”。模型的思考过程中会告诉你,哦不好意思,我刚才错了,我要重新分析一下…诸如此类。
- 较低的结束标签(End of Sentence)输出权重,让模型面对复杂问题时,尽可能地丰富思考过程。
DeepSeek-Reasoning模型的论文提到了两个模型——
DeepSeek-R1-Zero:一个纯粹通过强化学习训练的模型,没有经过监督微调,模型就获得了专注思考的能力,并且在AIME 2024考试中顺利地将准确率从15.6%提升到71.0%
DeepSeek-R1:在此基础上,仅提供少量冷启动数据进行强化学习,模型即达到了OpenAI-O1-1217相当水准的表现。
有了深度思考,提示词设计可以退出历史舞台了吗?
有些人认为,既然深度思考模型具有这么多优点,并且能在Zero-prompt的情况下获得同样高质量的回答,这是否意味着我们就可以放弃提示词设计工作了?
我的看法是否定的。首先,模型的自我提示并不具备定向性,通过Prompt设计明确工作目标和输出格式仍然非常重要;其次,对于特定的领域和特定的任务,仅依赖模型自我提示,不一定能够精确抓住问题重点。
因此,对待深度思考模型的兴起,最好的态度是学习了解原理,同时充分利用提示词和深度思考流程的优点,使二者在工作中相得益彰。
References
- DeepSeek-AI et al. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” ArXiv abs/2501.12948 (2025): n. pag.
看完麻烦帮忙点点认可,虽然不知道有啥用(