两张 Tesla A100 共 80G 显存，300G+ 内存，使用 ollama 本地部署 DeepSeek R1 32B 非量化版为何效果和在线 API 差距很大

xlcheer · 2025 年3 月 17 日 00:52

在线 API （火山方舟 / 硅基流动 / 阿里百炼）能正确解读数据，正确识别意图，而本地部署版本就非常呆。（尝试过 ollama 直接下载的 ds distill qwen 32b fp16 版本和 modelscope 下载并导入到 ollama 的 ds distill qwen 32b 非量化版，效果都是很差），有佬有有这方面经验吗

Cimix · 2025 年3 月 17 日 00:54

ollama就是慢，你应该选择vLLM或者SGLang

xlcheer · 2025 年3 月 17 日 00:57

其实速度还可以的，就是降智很厉害

Cimix · 2025 年3 月 17 日 00:59

llama蒸馏比qwen蒸馏会好些。

或者试试70b蒸馏版用int4

xlcheer · 2025 年3 月 17 日 01:02

int4 的 32b 和 70b 都试过了，没有在线 API 的 32B 非量化聪明，连个嵌套 JSON 结构的数据都无法正确解读

yhp666 · 2025 年3 月 17 日 01:04

70也好32也罢，都是r1这个老师教出来的学生，而真正的r1师从r1-zero和v3那不是一个档次的

xlcheer · 2025 年3 月 17 日 01:16

问题是，我在线 API 用的不是 R1 满血版，用的就是蒸馏版 R1 32B 非量化，甚至是 Qwen 2.5 32B 非量化效果都比本地部署的同模型效果好很多

live · 2025 年3 月 17 日 01:19

我用台式机跑的 14B 都可以啊.

xlcheer · 2025 年3 月 17 日 01:23

你试试让他分析一个嵌套 3 层的 JSON 数据，稍微长一点的

Hodor · 2025 年3 月 17 日 01:28

据说阿里开源了一个新的，你试试那个好像比dp的还好

admini · 2025 年3 月 17 日 01:28

在线 API ，你云部署的吗？如果是厂商提供，是什么厂商提供可选 32B 模型。

yhp666 · 2025 年3 月 17 日 02:08

哦？同样问题本地的蒸馏32b、70b比云厂商的32b、70b提供的api效果要差很多？？？能提供下api接口厂商名吗？还有你给几个不敏感的问题，我还真没见过同样的32、70b能有很大的差距

xlcheer · 2025 年3 月 17 日 02:39

火山方舟 DeepSeek-R1-Distill-Qwen-32B
阿里百炼 qwen2.5-32b-instruct
轨迹流动 qwen2.5-32b-instruct

同样的问题 / 提示词 / 数据，以上三个提供的 API 就是比本地部署的 deepseek r1 distill qwen 32b 非量化（65G）, deepseek r1 distill qwen 32b fp16（65G）以及 qwen 2.5 32b 非量化效果好很多。

dokopo · 2025 年3 月 17 日 02:43

文件发出来，佬友试试

StardustAlN · 2025 年3 月 17 日 02:45

不行的话佬友可以试试QwQ-32B

xlcheer · 2025 年3 月 17 日 03:12

数据比较敏感，不方便贴，我放一个在 dify 里多模型调试的图（数据做了脱敏），同样的 JSON 数据里的产线，本地模型就是识别错了，我是有一点怀疑显存不足，虽然看 ollama ps 显示本地模型 100% GPU，不知道还有什么ollama 配置问题或者硬件上的问题

xlcheer · 2025 年3 月 17 日 03:14

不瞒佬友，试过这个了，qwen 官方页面的很聪明，本地部署的也是呆子，所以我怀疑可能是硬件或者运行环境ollama的问题

TeQIng · 2025 年3 月 17 日 03:33

试试不用ollama

yinuan-i · 2025 年3 月 17 日 03:46

官方的都有微调训练过得吧，而且提示词也占一部分原因

xlcheer · 2025 年3 月 17 日 03:47

这的确是一个要尝试的路子

话题		回复	浏览量
声称自己比llama.cpp快的ktransformers 资源荟萃人工智能 , 转载	21	889	2025 年3 月 5 日
DeepSeek 本地部署配置清单搞七捻三 DeepSeek , 人工智能	26	2396	2025 年3 月 7 日
Gemma 3已上线Ollama，27B版本超越DeepSeek V3！前沿快讯 Google	87	2788	2025 年3 月 19 日
DeepSeek 新手上路 (二) 模型自部署文档共建人工智能	53	2724	2025 年3 月 5 日
vLLM 本地部署 Qwen/QwQ-32B-AWQ 求指导开发调优人工智能 , 快问快答	11	502	2025 年3 月 7 日

两张 Tesla A100 共 80G 显存，300G+ 内存，使用 ollama 本地部署 DeepSeek R1 32B 非量化版为何效果和在线 API 差距很大

相关话题