Dr.X
1
专业领域的翻译,但是算力有限,现在用 Qwen 72B 会出现不遵循指令擅自输出无关内容的情况,加上反思、格式化输出效果好一些。但是仍然偶尔会乱回。
于是试试思考模型的效果,小参数的模型效果会比普通模型同参数的好一点点,但是效果有限还会出现幻觉,主要的问题是速度慢很多。
deepseek 微调的 qwen、llama 模型数据库应该挺不错的,但对思考大模型并不是非常熟悉,如何让它不思考,只输出结果,达到提升回复速度的结果。此外和其他大模型一样输入输出,会对结果产生什么影响吗?有没有大佬解答一下
3 个赞
okkk
5
不能不思考,你可以主动过滤掉思考过程,不过首token响应的时间就变长了
理论上去掉标签内容就可以。用正则替换一下
import re
def remove_think_tag(text_example: str) -> str:
# 使用正则表达式匹配 <think> 标签及其内容并替换为空
result = re.sub(r'<think>.*?</think>', '', text_example, flags=re.DOTALL)
return result
paulcx
(FreeMind)
9
怎么解释大家都倾向于r1模型而不是v3模型或者更早版本的模型呢?
跟风,尤其是拿推理模型去沉浸式翻译的,你要是很严肃的翻译任务用推理模型我还能理解,浏览个网页翻译还用推理模型那不是纯粹追星吗
2 个赞
Ghidra
()
11
因为很多人不懂。不是所有任务都需要思考的,思考是以速度、成本甚至其他能力为代价的,只有在难度高的任务上才需要思考模型,不需要思考的任务用思考模型就是浪费钱浪费时间,效果甚至可能还不好
paulcx
(FreeMind)
13
肯定有跟风的情况存在,但是当一个时间成现象级的时候,那就不能只用跟风来解释了。另外来说,翻译用推理模型为什么就不能行?只要速度足够快不影响体验,翻译的质量越高越好没毛病吧。
paulcx
(FreeMind)
14
所以,不要停下思考,现在我们要想的是既要又要,怎么能在思考不停的情况下,加快速度。而不是因为速度不快,所以不要思考?不然怎么进步?
哪个推理模型足够快了呢,我认为首先是要根据任务选择,一味选择面子性能最好的模型并非明智,更何况模型也没有六边形战士
另外, 选择和追求,是两码事
3 个赞
Ghidra
()
16
推理模型和普通模型原理都不一样。又不是推理模型一定比普通模型好。各大厂都是既做推理模型又做普通模型,两条赛道一起发展的,就是因为两种模型的应用场景不同,各有价值。推理模型的使用场景就是难度很高、需要很强逻辑能力的任务,对于普通任务的效果可能没常规模型好
每句翻译都叫一个博士生写一篇报告然后给出翻译结果,你不觉得非常滑稽吗
1 个赞
paulcx
(FreeMind)
17
这个并不是多么难办的事情,下图是已经经过DS-R1蒸馏的翻译模型,当然有了思考会略微慢一些,速度上在1s左右。举这个例子是想说,不要限制我们的思维。
paulcx
(FreeMind)
18
这一点我也不太同意,当然要证明还需要一些时间,我个人的想法是未来还是会有一个统一的模型,无论是o3还是gpt-5,功能会越来越强,但是大家不希望有很多模型。
Ghidra
()
19
每句翻译都叫一个博士生写一篇报告然后给出这句话的翻译结果,你不觉得非常滑稽吗