16G显存运行满血DeepSeek

yhp666 · 2025 年2 月 12 日 10:43

MOE是个大趋势~

dogelee · 2025 年2 月 12 日 10:44

散会
现在消费级平台最高192G还是256G
而且内存d5的48G 四根插满得四五千呢

yyy2024 · 2025 年2 月 12 日 10:45

是的，现在大部分都是MOE模型了

handsome · 2025 年2 月 12 日 10:46

这。可以的吗

yyy2024 · 2025 年2 月 12 日 10:46

这不是给消费级自己部署的，不过我只是把那个视频作者的标题拿来用了用。要在家里自己部署这么大的模型，得再等几年

wwow · 2025 年2 月 12 日 10:47

这么厉害

querye · 2025 年2 月 12 日 10:48

什么时候Q4量化也能叫满血了。。。

md5 · 2025 年2 月 12 日 10:48

一般的主板难以支持大内存吧

yyy2024 · 2025 年2 月 12 日 10:48

可以的啊，B站视频不是有实际演示么，就是不太家用。这个对企业想私有部署挺有用的，大一点的或者对数据保密有要求的企业一般都有这么大内存的服务器

yyy2024 · 2025 年2 月 12 日 10:51

他不能真满血（视频中是Q4）的原因我猜还是因为显卡限制，激活参数30B，Q4量化，差不多就15G内存，他算的应该也没错。但是3090是可以nvlink的啊，4卡3090应该就能满血跑了。

yyy2024 · 2025 年2 月 12 日 10:52

那肯定不行，都是服务器主板才支持，而且主板也不便宜的

Bowie · 2025 年2 月 12 日 10:53

我突然怕4080烧了…

yhp666 · 2025 年2 月 12 日 10:55

3090的nvlink只能2卡不支持4卡的。如果是满血671b-r1的话，应该单张80G显存的A100就足以了，但是物理内存需要32G*48才能hold住1.4TB的全量模型

stevessr · 2025 年2 月 12 日 10:55

私有指令集……

yyy2024 · 2025 年2 月 12 日 10:57

还是比原来的方案成本低太多了，其实Q4优化好性能应该能达到原来的90%吧？也没必要追求真满血把。我看deepseek也是分布式部署的，这样说起来老黄是该紧张紧张。。

yhp666 · 2025 年2 月 12 日 10:59

671b-4bit版我有纯cpu推理环境，效果还是跟满血671b有点差距

yyy2024 · 2025 年2 月 12 日 11:02

纯cpu推理，我看了一下yt上的测试，还是有点慢，不过我看epyc能达到9t/s

RU_Sirius · 2025 年2 月 12 日 11:05

这速度已经和不用显卡纯用CPU的坐一桌了

yhp666 · 2025 年2 月 12 日 11:10

我这最多2t/s

yyy2024 · 2025 年2 月 12 日 11:12

那加了显卡还是要快得多，再继续看看后续的优化

话题		回复	浏览量
求推荐双卡或四卡的主板开发调优人工智能 , 快问快答	42	483	2025 年2 月 7 日
本地部署70b以上的满血版R1,大概需要什么配置电脑? 搞七捻三 DeepSeek , 人工智能 , 快问快答	37	2100	2025 年2 月 13 日
Deepseek是否打破部署定式？摆脱GPU？前沿快讯人工智能 , 纯水	94	2043	2025 年2 月 12 日
Deepseek本地搭建的硬件配置条件开发调优 DeepSeek , 人工智能 , 快问快答	20	477	2025 年2 月 7 日
3090评测—截止24年9月份前沿快讯	9	441	2024 年12 月 16 日