如何以最低成本跑deepseek 3?

wszgrcy · 2024 年12 月 27 日 05:14

突然发现moe这种高参数但是低激活的方法能保证速度,又能保证一定的质量,但是最大问题就是太大了…8卡4090估计都跑不起来(4bit勉强,并且还不算上下文占用),那么现在个人如果想跑(不要说充值直接使用…因为就想本地部署),大概什么设备够用?

但是如果用不满通道,速度也上不去,用满了的话估计也解决爆内存…

ProxyCN · 2024 年12 月 27 日 05:17

有20W么？如果有的话可以买个机箱，然后玩扫雷。因为跑不动。
有50W么？如果有的话可以买个机箱，然后玩斗地主，因为FP16跑不动。
有100W么？如果有的话，你玩这个你是有钱的佬。羡慕。

homeworkkun · 2024 年12 月 27 日 05:19

据说有人用8个mac mini跑了可以

wszgrcy · 2024 年12 月 27 日 05:20

这个模型的重点其实是加载占用内存,真正激活使用的才37b

homeworkkun · 2024 年12 月 27 日 05:28

remoteman · 2024 年12 月 27 日 05:32

大内存+小显存reload的方法理论上可以低成本跑，激活参数不算大基本上48G的显存能跑Q4，但是这只是理论上，实际显存io成本太高了，只能图一乐，数据交互速度成了瓶颈

haoyangmao · 2024 年12 月 27 日 05:32

靠论坛的佬友接济

wszgrcy · 2024 年12 月 27 日 05:44

每台mini是16g的?这速度也太…慢了(不过如果真是16g,那成本确实挺低的)

OpenAI_Q-Star · 2024 年12 月 27 日 05:49

8*mac 192g ？

handsome · 2024 年12 月 27 日 05:50

你要自己跑？

yqyan · 2024 年12 月 27 日 05:57

这个还不错，不过，不知道他这 Mini 的配置，如果只是 16GB 的，那顶配 Pro 应该也能跑吧，而且少了网络瓶颈理论上应该会更快点，等 M4 Studio 出，应该问题就更不大了

rocsy · 2024 年12 月 27 日 06:51

moe就这样

PurpleSword · 2024 年12 月 27 日 06:55

是8台64g的，成本不到20w

PurpleSword · 2024 年12 月 27 日 07:00

而且是4bit量化

PurpleSword · 2024 年12 月 27 日 07:00

毕竟600B，一般本地跑一个72B的就顶天了

wszgrcy · 2024 年12 月 27 日 08:17

额…不知道用双路12通道的epyc跑,速度如何?总带宽能到1000G

y1285012 · 2024 年12 月 27 日 09:06

这能在本地跑吗，而且现在没有出ollama的

yqyan · 2024 年12 月 27 日 09:12

虽然这台机器也算不错了，但这个显存应该是不够的

ukhack · 2024 年12 月 27 日 09:14

我有1000w，家里吹风机1200w的

ukhack · 2024 年12 月 27 日 09:15

啊这，是怎么共享内存的呢

话题		回复	浏览量
感觉现在笔记本16G已经完全不够用了搞七捻三纯水	107	1688	2025 年1 月 10 日
FLOPS指的是单精度还是双精度? 开发调优快问快答	13	350	2024 年12 月 8 日
换了Macbook Pro 16寸 48G，舒服了搞七捻三纯水	44	770	2024 年12 月 29 日
4o-mini被微软证实只有8B，我早就说了，但是当时你们都不信🤣 前沿快讯 ChatGPT , 人工智能 , 纯水	31	1668	2025 年1 月 3 日
240108 三花AI日报：英伟达 RTX 50 系列显卡发布；英伟达开源 Cosmos 世界模型；NVIDIA 推出 Project DIGITS 高性能 AI 超级计算机前沿快讯人工智能	18	414	2025 年1 月 8 日