如何以最低成本跑deepseek 3?

突然发现moe这种高参数但是低激活的方法能保证速度,又能保证一定的质量,但是最大问题就是太大了…8卡4090估计都跑不起来(4bit勉强,并且还不算上下文占用),那么现在个人如果想跑(不要说充值直接使用…因为就想本地部署),大概什么设备够用?

  • mac? 192g都会爆掉把?(2bit?)
  • epyc 12通道?

但是如果用不满通道,速度也上不去,用满了的话估计也解决爆内存…

  • h800?(告辞…)
  • mi300x?(没看过测评)
6 个赞

有20W么?如果有的话可以买个机箱,然后玩扫雷。因为跑不动。
有50W么?如果有的话可以买个机箱,然后玩斗地主,因为FP16跑不动。
有100W么?如果有的话,你玩这个你是有钱的佬。羡慕。

3 个赞

据说有人用8个mac mini跑了可以

1 个赞

这个模型的重点其实是加载占用内存,真正激活使用的才37b

2 个赞

2 个赞

大内存+小显存reload的方法理论上可以低成本跑,激活参数不算大基本上48G的显存能跑Q4,但是这只是理论上,实际显存io成本太高了,只能图一乐,数据交互速度成了瓶颈

2 个赞

靠论坛的佬友接济

每台mini是16g的?这速度也太…慢了(不过如果真是16g,那成本确实挺低的)

8*mac 192g ?

你要自己跑?

这个还不错,不过,不知道他这 Mini 的配置,如果只是 16GB 的,那顶配 Pro 应该也能跑吧,而且少了网络瓶颈理论上应该会更快点,等 M4 Studio 出,应该问题就更不大了:joy:

moe就这样

是8台64g的,成本不到20w

1 个赞

而且是4bit量化

1 个赞

毕竟600B,一般本地跑一个72B的就顶天了 :rofl:

额…不知道用双路12通道的epyc跑,速度如何?总带宽能到1000G


这能在本地跑吗,而且现在没有出ollama的

1 个赞

虽然这台机器也算不错了,但这个显存应该是不够的:pensive:

我有1000w,家里吹风机1200w的

啊这,是怎么共享内存的呢