Deepseek 的蒸馏模型如何去掉思考过程

Dr.X · 2025 年2 月 5 日 05:36

专业领域的翻译，但是算力有限，现在用 Qwen 72B 会出现不遵循指令擅自输出无关内容的情况，加上反思、格式化输出效果好一些。但是仍然偶尔会乱回。

于是试试思考模型的效果，小参数的模型效果会比普通模型同参数的好一点点，但是效果有限还会出现幻觉，主要的问题是速度慢很多。

deepseek 微调的 qwen、llama 模型数据库应该挺不错的，但对思考大模型并不是非常熟悉，如何让它不思考，只输出结果，达到提升回复速度的结果。此外和其他大模型一样输入输出，会对结果产生什么影响吗？有没有大佬解答一下

yangtb2024 · 2025 年2 月 5 日 05:45

应该不能不思考，但是可以去掉内容

fengchris · 2025 年2 月 5 日 05:46

那就用v3 没必要用蒸馏

6512345 · 2025 年2 月 5 日 05:46

那就没必要蒸馏ww

okkk · 2025 年2 月 5 日 05:48

不能不思考，你可以主动过滤掉思考过程，不过首token响应的时间就变长了

Dr.X · 2025 年2 月 5 日 06:20

v3 太大了…只有蒸馏模型小一点

zhong_little · 2025 年2 月 5 日 06:20

只是推理能力有增强，其他能力甚至减弱了

javabase · 2025 年2 月 5 日 06:24

理论上去掉标签内容就可以。用正则替换一下

import re

def remove_think_tag(text_example: str) -> str:
# 使用正则表达式匹配 <think> 标签及其内容并替换为空
result = re.sub(r'<think>.*?</think>', '', text_example, flags=re.DOTALL)
return result

paulcx · 2025 年2 月 5 日 06:30

怎么解释大家都倾向于r1模型而不是v3模型或者更早版本的模型呢？

zhong_little · 2025 年2 月 5 日 06:32

跟风，尤其是拿推理模型去沉浸式翻译的，你要是很严肃的翻译任务用推理模型我还能理解，浏览个网页翻译还用推理模型那不是纯粹追星吗

Ghidra · 2025 年2 月 5 日 06:32

因为很多人不懂。不是所有任务都需要思考的，思考是以速度、成本甚至其他能力为代价的，只有在难度高的任务上才需要思考模型，不需要思考的任务用思考模型就是浪费钱浪费时间，效果甚至可能还不好

handsome · 2025 年2 月 5 日 06:32

去掉那个标签呢

paulcx · 2025 年2 月 5 日 06:37

肯定有跟风的情况存在，但是当一个时间成现象级的时候，那就不能只用跟风来解释了。另外来说，翻译用推理模型为什么就不能行？只要速度足够快不影响体验，翻译的质量越高越好没毛病吧。

paulcx · 2025 年2 月 5 日 06:39

所以，不要停下思考，现在我们要想的是既要又要，怎么能在思考不停的情况下，加快速度。而不是因为速度不快，所以不要思考？不然怎么进步？

zhong_little · 2025 年2 月 5 日 06:40

哪个推理模型足够快了呢，我认为首先是要根据任务选择，一味选择面子性能最好的模型并非明智，更何况模型也没有六边形战士
另外，选择和追求，是两码事

Ghidra · 2025 年2 月 5 日 06:46

推理模型和普通模型原理都不一样。又不是推理模型一定比普通模型好。各大厂都是既做推理模型又做普通模型，两条赛道一起发展的，就是因为两种模型的应用场景不同，各有价值。推理模型的使用场景就是难度很高、需要很强逻辑能力的任务，对于普通任务的效果可能没常规模型好

每句翻译都叫一个博士生写一篇报告然后给出翻译结果，你不觉得非常滑稽吗

paulcx · 2025 年2 月 5 日 06:49

这个并不是多么难办的事情，下图是已经经过DS-R1蒸馏的翻译模型，当然有了思考会略微慢一些，速度上在1s左右。举这个例子是想说，不要限制我们的思维。

paulcx · 2025 年2 月 5 日 06:50

这一点我也不太同意，当然要证明还需要一些时间，我个人的想法是未来还是会有一个统一的模型，无论是o3还是gpt-5，功能会越来越强，但是大家不希望有很多模型。

Ghidra · 2025 年2 月 5 日 06:51

每句翻译都叫一个博士生写一篇报告然后给出这句话的翻译结果，你不觉得非常滑稽吗

Melaton · 2025 年2 月 5 日 06:52

~~杀鸡用牛刀了属于是~~
建议用 v3，便宜且效果好

话题		回复	浏览量
Deepseek R1模型可以关闭思考吗开发调优人工智能 , 快问快答	31	750	2025 年2 月 9 日
R1蒸馏的模型大多比原模型能力要差（六个型号）搞七捻三人工智能	33	1599	2025 年2 月 5 日
Deepseek v3也不行啊搞七捻三纯水	29	1043	2025 年1 月 28 日
Gemini pro现在属于什么水平？资源荟萃人工智能 , 快问快答	140	1824	2025 年1 月 27 日
llama怎么样了？也没落了吗？资源荟萃人工智能	39	1156	2025 年2 月 10 日

Deepseek 的蒸馏模型如何去掉思考过程

相关话题