感谢推荐,等我有时间读过这篇文章以后再来评论
统一的是agent,有调用适合不同场景的模型的能力。而不是一个模型有所有能力、适合所有任务
这么说也没毛病,总之对于用户来说是不需要去区分用什么特定模型。
不止慢了,还差了(特指语言能力),追求更好的模型当然无可厚非,但是根据模型擅长的安排对应的任务,更切实际
(ps. 不知道你所说的“这个并不是多么难办的事情”是指什么)
我前面说了,我认为楼上的朋友提出用思考模型或者说具备思考能力的模型来翻译没毛病。想法就是提高翻译的准确。同时我提出,因为现在思考模型比较慢所以反对也站不住脚,为什么不能让思考模型足够快同时足够好呢。这不就是接下来进步的空间?
我觉得是因为思考模型的设计目的就是在相对花更多时间更多金钱更多算力的情况下解决最复杂、常规模型无法完成的问题,生成一份详尽的报告
它的训练、原理全是为了这个目的服务的,不管是让它别思考还是让它解决简单的问题都是和它的训练相违背、和它的目的相违背的
速度是肯定要提高的,但是是为了生成详尽报告而提高速度,不是将速度提高到常规模型的速度以取代常规模型完成低级任务
就好像你叫一个工科博士去拧螺丝,他智商很高,能完成这个任务,但是他肯定没有工人熟练。叫他多练练拧螺丝去取代工人肯定不合理对吧
1,我同意思考模型可能是为了提升某方面能力而设计的,但是这影响我们使用过程中发现它能提升翻译质量所以将它用在其他场景里吗?
2,使用的方式违背训练和原理目的有什么过错吗?难道不是怎么结果好怎么用?
3,从技术研究的角度说,设计或开发者也未必一定掌握模型最终能力,这不是太正常的一件事了。或许,就是从实际模型的使用效果中出发,来调整设计的思路或者说将来人人都是博士水平了,怎么就不能接受让博士去拧螺丝?
我的核心思想是说思维要打开,只要不违法违规,怎么用模型有什么错呢?
- 又没说你错。但是你用思考模型去翻译是在浪费你自己的钱、还要花很多时间、翻得还没普通模型好
- 和它的训练相违背当然会降低回答质量啊
- 做一个精通所有场景所有任务的llm确实是可以的,但是成本比做一个高智商模型差遣一群精通不同任务的普通模型达到同样效果的成本要高得多
没人说你错,怎么别人就不是思维打开呢
因为确实是专业领域的翻译,但是算力有限,现在用的 Qwen 72B 会出现不遵循指令擅自输出无关内容的情况。
于是试试思考模型的效果,小参数的模型效果会好一点点,但是效果有限还会出现幻觉,速度慢很多。
确实理解不了他们那些用大模型跑沉浸式翻译的,我觉得用谷歌翻译都够用,可能他们一点英语都不会
主要是本地部署,v3 参数太大了,得买好多显卡跑推理
不渲染就行了,想 openwebui 默认也可以折叠
可能有别人量化过的小参数模型