在线 API (火山方舟 / 硅基流动 / 阿里百炼)能正确解读数据,正确识别意图,而本地部署版本就非常呆。(尝试过 ollama 直接下载的 ds distill qwen 32b fp16 版本和 modelscope 下载并导入到 ollama 的 ds distill qwen 32b 非量化版,效果都是很差),有佬有有这方面经验吗
ollama就是慢,你应该选择vLLM或者SGLang
其实速度还可以的,就是降智很厉害
int4 的 32b 和 70b 都试过了,没有在线 API 的 32B 非量化聪明,连个嵌套 JSON 结构的数据都无法正确解读
70也好32也罢,都是r1这个老师教出来的学生,而真正的r1师从r1-zero和v3那不是一个档次的
问题是,我在线 API 用的不是 R1 满血版,用的就是蒸馏版 R1 32B 非量化,甚至是 Qwen 2.5 32B 非量化效果都比本地部署的同模型效果好很多
我用台式机跑的 14B 都可以啊.
你试试让他分析一个嵌套 3 层的 JSON 数据,稍微长一点的
据说阿里开源了一个新的,你试试那个好像比dp的还好
在线 API ,你云部署的吗?如果是厂商提供,是什么厂商提供可选 32B 模型。
哦?同样问题本地的蒸馏32b、70b比云厂商的32b、70b提供的api效果要差很多???能提供下api接口厂商名吗?还有你给几个不敏感的问题,我还真没见过同样的32、70b能有很大的差距
火山方舟 DeepSeek-R1-Distill-Qwen-32B
阿里百炼 qwen2.5-32b-instruct
轨迹流动 qwen2.5-32b-instruct
同样的问题 / 提示词 / 数据,以上三个提供的 API 就是比本地部署的 deepseek r1 distill qwen 32b 非量化 (65G), deepseek r1 distill qwen 32b fp16(65G)以及 qwen 2.5 32b 非量化效果好很多。
文件发出来,佬友试试
不行的话佬友可以试试QwQ-32B
数据比较敏感,不方便贴,我放一个在 dify 里多模型调试的图(数据做了脱敏),同样的 JSON 数据里的产线,本地模型就是识别错了,我是有一点怀疑显存不足,虽然看 ollama ps
显示本地模型 100% GPU,不知道还有什么ollama 配置问题或者硬件上的问题
不瞒佬友,试过这个了,qwen 官方页面的很聪明,本地部署的也是呆子,所以我怀疑可能是硬件或者运行环境ollama
的问题
试试不用ollama
官方的都有微调训练过得吧,而且提示词也占一部分原因
这的确是一个要尝试的路子