我这套硬件是不是哪里有瓶颈？

JidaDiao · 2025 年1 月 24 日 14:27

组了一套个人的炼丹服务器玩，但是有很多地方不是很明白，配置如下：

服务器配置

主机：超微 7048 准系统
CPU：Intel Xeon E5-2682 V4 * 2（32 核 64 线程，基础频率 2.5GHz）
内存：128GB DDR4 2400MHz 四通道
存储：1TB 闪迪固态硬盘
电源：2000W 单电源
显卡：双 Nvidia RTX 3090，支持 NVLink
操作系统：Ubuntu 22.04.5 LTS

运行情况

下面是我用ollama跑qwen2.5:74b的结果：

eval rate只有可怜的3.84 tokens/s

下面是显卡的使用情况：

两张显卡的显存几乎都已经吃满，但是显卡使用率仅为 14%，这是不是有点过低了？不知道这里是不是哪里瓶颈了，还是说这套方案确实就是这个水平。

handsome · 2025 年1 月 24 日 14:33

@xiaolinkangna 怎么回事

ZoroAster · 2025 年1 月 24 日 14:33

qwen2.5:74b?
显卡使用率在不推理的时候0%都正常，建议使用watch指令监控一下峰值占用率能不能到100%。

JidaDiao · 2025 年1 月 24 日 14:39

看了两张卡最高都只有14%，很奇怪

stevessr · 2025 年1 月 24 日 14:42

PCIE连接速率是多少？
上NVLINK了吗

ZoroAster · 2025 年1 月 24 日 14:44

看一下是不是显存不够模型有部分加载在内存里了，低的不正常

JidaDiao · 2025 年1 月 24 日 14:46

装了，按照 2xRTX3090 Ubuntu/nvidia-smi开启NVLink - 知乎这个里面的设置了，但是不知道为什么我显示的是nv3。

JidaDiao · 2025 年1 月 24 日 14:47

好像是超出去了…看来72b还是难为两块3090了

ZoroAster · 2025 年1 月 24 日 14:48

72你这显存必然不够，不量化需要约160GB显存呢。

JidaDiao · 2025 年1 月 24 日 14:50

好像ollama直接拉下来的模型默认就是使用Q4_K_M量化的

ZoroAster · 2025 年1 月 24 日 14:54

问了一下deepseek，他说是FP16的30%-40%，应该还是不太够。

xiaolinkangna · 2025 年1 月 24 日 15:28

72b的话，这个成绩应该不是可怜
瓶颈你自己都知道呀，再怎么量化差距也太大了，玩32b试试咯
~~想折腾的话，改个散热玩玩~~

huanlin · 2025 年1 月 24 日 15:43

开个btop看一下cpu占用，这cpu不大行吧

Juya · 2025 年1 月 24 日 22:40

纯粹就是模型太大显存不够把内存也给用上了。

JidaDiao · 2025 年1 月 25 日 01:03

话说我32b的模型又全部只放到一张卡上，另一张只有一点点。难道没有介于30+到70+之间的模型吗？

Forever · 2025 年1 月 25 日 01:11

我知道Linux 有个选项可以调多大程度依赖swap，是不是对于显卡依赖和显存依赖也有对应参数啊

JidaDiao · 2025 年1 月 25 日 01:20

我去研究一下

JidaDiao · 2025 年1 月 25 日 01:23

那大伙们我这套还有没有升级空间呀？咋升级？整个准系统只花了3000+，显卡却花了1.3w，会不会有点小牛拉大车了…

nameliu · 2025 年1 月 25 日 01:31

那就不量化，或者量化的少点
我记得32B的模型（deepseek-ai/DeepSeek-R1-Distill-Qwen-32B）如果不量化，48GB的L40s也无法完全加载到模型里的，好像要有100GB的模型在外面（有点不确定了，我记得我没有跑过deepseek-ai/DeepSeek-R1-Distill-Llama-70B，只跑过32B的，但是32B可以占用这么大的吗）。
量化直接就会把模型大小除以2的整数倍，模型大小成倍缩小，14B的，量化后的回答质量变化，可以感知出来。跑14B的可以完全不量化，精度不下降。

yhp666 · 2025 年1 月 25 日 01:39

首先E5的cpu只支持pcie3你这3090可是pcie4，这就是典型的小马拉大车，当然这只影响内存到显存之间的速度。
然后建议你执行一个命令vnidia-smi -pm 1这样可以让你的显卡起步更快些。
最后建议你跑一个＜24GB的模型，只用一张3090试试看能不能把显卡算力拉满。可以直接ollama run ***
还有就是nvtop不如pip install nvitop后者看负载更方便

话题		回复	浏览量
Deepseek本地搭建的硬件配置条件开发调优 DeepSeek , 人工智能 , 快问快答	20	361	2025 年2 月 7 日
本地安装部署图形化界面Deepseek模型（2060显卡可运行的），较稳定不易运行出错，目前有什么方式吗？开发调优人工智能 , 快问快答	83	703	2025 年2 月 1 日
今天买了台新PC，本地部署了Open WebUI+Ollama 搞七捻三 ollama , 人工智能 , OpenWebUI , 纯水	107	2300	2025 年1 月 30 日
LM本地部署deep，没有办法联网？开发调优人工智能 , 快问快答	40	323	2025 年2 月 7 日
10年前的笔记本跑deepseek-r1 7b 开发调优人工智能	46	1367	2025 年1 月 30 日

我这套硬件是不是哪里有瓶颈？

服务器配置

运行情况

相关话题