突然发现moe这种高参数但是低激活的方法能保证速度,又能保证一定的质量,但是最大问题就是太大了…8卡4090估计都跑不起来(4bit勉强,并且还不算上下文占用),那么现在个人如果想跑(不要说充值直接使用…因为就想本地部署),大概什么设备够用?
- mac? 192g都会爆掉把?(2bit?)
- epyc 12通道?
但是如果用不满通道,速度也上不去,用满了的话估计也解决爆内存…
- h800?(告辞…)
- mi300x?(没看过测评)
突然发现moe这种高参数但是低激活的方法能保证速度,又能保证一定的质量,但是最大问题就是太大了…8卡4090估计都跑不起来(4bit勉强,并且还不算上下文占用),那么现在个人如果想跑(不要说充值直接使用…因为就想本地部署),大概什么设备够用?
但是如果用不满通道,速度也上不去,用满了的话估计也解决爆内存…
有20W么?如果有的话可以买个机箱,然后玩扫雷。因为跑不动。
有50W么?如果有的话可以买个机箱,然后玩斗地主,因为FP16跑不动。
有100W么?如果有的话,你玩这个你是有钱的佬。羡慕。
据说有人用8个mac mini跑了可以
这个模型的重点其实是加载占用内存,真正激活使用的才37b
大内存+小显存reload的方法理论上可以低成本跑,激活参数不算大基本上48G的显存能跑Q4,但是这只是理论上,实际显存io成本太高了,只能图一乐,数据交互速度成了瓶颈
靠论坛的佬友接济
每台mini是16g的?这速度也太…慢了(不过如果真是16g,那成本确实挺低的)
8*mac 192g ?
你要自己跑?
这个还不错,不过,不知道他这 Mini 的配置,如果只是 16GB 的,那顶配 Pro 应该也能跑吧,而且少了网络瓶颈理论上应该会更快点,等 M4 Studio 出,应该问题就更不大了
moe就这样
是8台64g的,成本不到20w
而且是4bit量化
毕竟600B,一般本地跑一个72B的就顶天了
额…不知道用双路12通道的epyc跑,速度如何?总带宽能到1000G
虽然这台机器也算不错了,但这个显存应该是不够的
我有1000w,家里吹风机1200w的
啊这,是怎么共享内存的呢