MOE是个大趋势~
散会
现在消费级平台最高192G还是256G
而且内存d5的48G 四根插满得四五千呢
是的,现在大部分都是MOE模型了
这。可以的吗
这不是给消费级自己部署的,不过我只是把那个视频作者的标题拿来用了用。要在家里自己部署这么大的模型,得再等几年
这么厉害
什么时候Q4量化也能叫满血了。。。
一般的主板难以支持大内存吧
可以的啊,B站视频不是有实际演示么,就是不太家用。这个对企业想私有部署挺有用的,大一点的或者对数据保密有要求的企业一般都有这么大内存的服务器
他不能真满血(视频中是Q4)的原因我猜还是因为显卡限制,激活参数30B,Q4量化,差不多就15G内存,他算的应该也没错。但是3090是可以nvlink的啊,4卡3090应该就能满血跑了。
那肯定不行,都是服务器主板才支持,而且主板也不便宜的
我突然怕4080烧了…
3090的nvlink只能2卡不支持4卡的。如果是满血671b-r1的话,应该单张80G显存的A100就足以了,但是物理内存需要32G*48才能hold住1.4TB的全量模型
私有指令集……
还是比原来的方案成本低太多了,其实Q4优化好性能应该能达到原来的90%吧?也没必要追求真满血把。我看deepseek也是分布式部署的,这样说起来老黄是该紧张紧张。。
671b-4bit版我有纯cpu推理环境,效果还是跟满血671b有点差距
纯cpu推理,我看了一下yt上的测试,还是有点慢,不过我看epyc能达到9t/s
这速度已经和不用显卡纯用CPU的坐一桌了
我这最多2t/s
那加了显卡还是要快得多,再继续看看后续的优化