两张 Tesla A100 共 80G 显存,300G+ 内存,使用 ollama 本地部署 DeepSeek R1 32B 非量化版为何效果和在线 API 差距很大

在线 API (火山方舟 / 硅基流动 / 阿里百炼)能正确解读数据,正确识别意图,而本地部署版本就非常呆。(尝试过 ollama 直接下载的 ds distill qwen 32b fp16 版本和 modelscope 下载并导入到 ollama 的 ds distill qwen 32b 非量化版,效果都是很差),有佬有有这方面经验吗

21 个赞

ollama就是慢,你应该选择vLLM或者SGLang

4 个赞

其实速度还可以的,就是降智很厉害

llama蒸馏比qwen蒸馏会好些。

或者试试70b蒸馏版用int4

1 个赞

int4 的 32b 和 70b 都试过了,没有在线 API 的 32B 非量化聪明,连个嵌套 JSON 结构的数据都无法正确解读

70也好32也罢,都是r1这个老师教出来的学生,而真正的r1师从r1-zero和v3那不是一个档次的

1 个赞

问题是,我在线 API 用的不是 R1 满血版,用的就是蒸馏版 R1 32B 非量化,甚至是 Qwen 2.5 32B 非量化效果都比本地部署的同模型效果好很多

我用台式机跑的 14B 都可以啊.

你试试让他分析一个嵌套 3 层的 JSON 数据,稍微长一点的

据说阿里开源了一个新的,你试试那个好像比dp的还好

在线 API ,你云部署的吗?如果是厂商提供,是什么厂商提供可选 32B 模型。

哦?同样问题本地的蒸馏32b、70b比云厂商的32b、70b提供的api效果要差很多???能提供下api接口厂商名吗?还有你给几个不敏感的问题,我还真没见过同样的32、70b能有很大的差距

火山方舟 DeepSeek-R1-Distill-Qwen-32B
阿里百炼 qwen2.5-32b-instruct
轨迹流动 qwen2.5-32b-instruct

同样的问题 / 提示词 / 数据,以上三个提供的 API 就是比本地部署的 deepseek r1 distill qwen 32b 非量化 (65G), deepseek r1 distill qwen 32b fp16(65G)以及 qwen 2.5 32b 非量化效果好很多。

文件发出来,佬友试试

不行的话佬友可以试试QwQ-32B

数据比较敏感,不方便贴,我放一个在 dify 里多模型调试的图(数据做了脱敏),同样的 JSON 数据里的产线,本地模型就是识别错了,我是有一点怀疑显存不足,虽然看 ollama ps 显示本地模型 100% GPU,不知道还有什么ollama 配置问题或者硬件上的问题

不瞒佬友,试过这个了,qwen 官方页面的很聪明,本地部署的也是呆子,所以我怀疑可能是硬件或者运行环境ollama的问题

试试不用ollama

官方的都有微调训练过得吧,而且提示词也占一部分原因

这的确是一个要尝试的路子