deepseek r1本地部署求教

今天有时间搞本地部署了,先说一下我的配置:
cpu: Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz
内存:128G,3200Mhz
显卡:A6000 48G
硬盘:3.6T 机械硬盘
系统:Ubuntu24.04

1.部署用docker合适还是直接conda合适?
2.还想暴露端口供实验室的同学们一块用,这一步不太清楚怎么弄
3.48G显存打算只用一半,剩下24G用来做其他任务,这里可能是32B?想多听点佬友们的建议
4.LM Studio和Ollama哪个更合适,有什么区别?

我更倾向于用docker部署,感觉更便于管理,是不是用Ollama的镜像创建容器然后创建32B的模型就可以了?

希望各位佬友给点思路,多谢啦!

3 个赞

基于docker 部署 Ollama + Open WebUI 即可

自己玩的话
1、我习惯用conda。主要是自用,用conda会更灵活简单。Docker适合需要分发部署的场景
2、ollama起来之后,本地会起服务,直接让实验室同学访问或者反向代理一下都可以。或者直接用Open WebUI这种接入你本地部署的服务就行
3、32B的模型只用一半显存24G?你确定?要不还是7B?8B?14B?
4、自己玩的话还是ollama吧,简单

我是看网上说32B大约20G显存,所以我想试一下,先试试,48G显存肯定够用,不行了再说

谢谢佬友,我先部署一下,openwebui这一步还没搞明白

这显卡可以考虑更高一点的模型,r1也可以。

我最近租了GPU,80G显存跑qwen2.5 32b FP16 没跑起来,用的xinference+vllm引擎,最后用了量化后的GPTQ INT8,所以我觉得还是老老实实用API吧 本地部署就是玩具

openwebui就是个前端ui罢了,部署好以后会自动连接Ollama,几乎0配置,很方便。

https://github.com/open-webui/open-webui

按官方说明运行,开放3000端口就行了

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

明白,dockerhub好像又被墙了,我好无助哈哈哈哈,我记得年前那一阵好了的,我想直接拉ollama的镜像感觉方便一些

docker 部署 建议看看 分享Docker部署deepseek-R1本地大模型的教程,并推荐个可以加速Hugging Face下载的项目。 国内的镜像拉取 建议 换成 ghcr.nju.edu.cn/open-webui/open-webui:ollama 即可 本人已经试过 :laughing:

1 个赞

1.如果选择ollama部署的话,既可以不用docker、也可以不用conda,直接官网curl那个命令安装就行

2.暴露端口不建议修改ollama的配置,倒不是说不行而是怕今天改完明天都未必记得改回去了你看多少人给扫到了。推荐个小工具apt install rinetd,安装完以后只需要配置下/etc/rinetd.conf启动就可以用了,不需要的时候随时顺手kill掉rinetd就可以了,除了ollama的11434其他服务也可以这样映射出去。

3.这个逐个看吧
如果只能用24G显存的话,那最多只能考虑
ollama run deepseek-r1:32b-qwen-distill-q4_K_M
假如40G显存都可以用的话,那可以考虑下
ollama run deepseek-r1:32b-qwen-distill-q8_0
要是能任性霸占A6000的话,可以搞
ollama run deepseek-r1:70b-llama-distill-q4_K_M
我自己实际使用过程中发现,70b-llama对于中文的处理一般般。不管是qwen、还是llama都思考了,但思考的结果都是有差距的。

4.单机部署ollama足以了,简单方便。LM Studio、vllm这些推理部署方式的确比ollama更强大,但在这个环境下无用武之地。

2 个赞

机械硬盘,模型载入的速度非常非常非常慢。 用生图的flux(20G)模型举例,机械硬盘载入所有相关的模型要半个小时左右,SSD 大概不到2分钟。
r1 671b的,b站大佬工作站ssd,载入时间大概3分多。如果测试需要频繁的载入卸载,一轮大概是6分钟(SSD)。

LM 据说免费但是没开源,很多人担心它偷偷上传数据,一般用之前会禁它网络。相比下来 ollama 更省事儿些。

太强了佬,我觉得有你这个答案就够了,不过多占用大家资源了

本地机器太垃圾 跑葛7b 一卡一卡的 :laughing:

但是LM好像linux没法用吧?

这个我还真不清楚,就是看到主楼问了LM,顺带说一嘴的。
ps:open webui 只支持py 3.11,装的时候注意py版本号。

我提个其他的问题。显卡这么好的情况下,为啥内存和硬盘这么不行

同docker部署ollama+deepseekr1+openwebui, 部署后每次打开openwebui界面都需要加载挺长时间,后来把 管理员面板-设置-外部连接 中的 openAI API 关闭后速度快了很多 ,可以参考 :hushed:

1 个赞

好的哥,我现在还在摸索,时间有点不够用,回头我有不懂再来请教