佬们,本地AI模型部署建议用哪个?

佬们,领导让搞一下部门内的AI建设

本地AI模型部署建议用哪个?比较注重隐私性

平台准备用 Dify(好像比FastGPT强)

5 Likes

已知有 OpenLLM、 Ollama 好像比较好

2 Likes

硬件环境说一下
推理引擎,生产环境推荐 SGLangvLLM
嵌入和重排推荐 TEI

5 Likes

我一般都是用ollama

1 Like

硬件暂时没要求,但是也不要太离谱 :rofl:

1 Like

很多大佬还是推荐 Qwen 吧

1 Like

ollama坏处是多卡并发效率不行,好处是跨平台,不挑剔显卡,windows随便就布置上了。

ollama+qwq还是不错的,方便,实用,

qwen3是思考模型为主,推理有点慢,别的没毛病。

1 Like

vllm作为推理部署框架,本地模型选择qwen3系列+嵌入模型选择bge-large或者zh均可,配合bge-ranker重排模型,根据你自己的硬件,选择最合适配置那一个模型即可。知识库软件选择ragflow,没用dify

日常使用关闭qwen3的推理模式,就正常模式就可以。

6 Likes

平台的话 macos 首推 ollama,win可以自己找 好像可选择的比较多~ 至于模型一般家用机最高也就能部署14b~32b左右的模型 再大都跑不动 但应对日常是够了~


我本地部署了这几个模型,目前最常用的还是qwen3:32b

感谢佬,我了解一下

好的,感谢佬

qwen3 14b和32b回答质量差别大吗?感觉14b对硬件要求更低,推理速度更快。

这个问题要先亮出你的硬件吧,根据这个选比较方便

ollama部署模型,演示用dify,然后外接ragflow做知识库

qwen3

1 Like

对我来说其实两个速度差别不太大,之前翻译用过14b,没测试过太难的问题,只是处理一些敏感信息的时候会用一下 :thinking: 所以不太确定两个能力差多少,但是qwen3这个32b的模型和其他的70b用起来感觉区别不大

1 Like

硬件决定模型规模。

推荐

嵌入和重排对硬件要求不高,大模型就得看具体硬件了,不过可以考虑 Qwen 系列,可选模型档次及种类较多,能力也不错。

1 Like