如图,用洋垃圾硬件拼一个双路24大核,768G DDR3 ECC内存的平台,核心成本只需要两千RMB左右。如果不考虑性能,只要求跑起,这样是否可行?
补充,reddit上有老哥用类似平台跑的V3,据说输出性能0.3token/s
补充,发现nga上有老哥们已经在讨论了传送
补充,reddit上有老哥用类似平台跑的V3,据说输出性能0.3token/s
补充,发现nga上有老哥们已经在讨论了传送
很慢很慢…
想投资一下试试
电费比 api 还贵
跑是可以,拿这种硬件硬跑属实没啥必要。
一天应该能交流一轮吧
cpu来跑?
是的你没看错
用CPU跑大模型推理瓶颈是内存带宽,这不老外已经玩上了!
原贴:$6000 无显卡本地运行 R1 完全体(600B 参数,Q8 量化),6~8 tok / s
https://x.com/carrigmat/status/1884244369907278106
翻译:微信公众号
https://mp.weixin.qq.com/s/xTynjgXhZmk7uD-Q1lLROw
PS:ddr3 应该会很慢。。。
这个靠谱,但是成本得5万多RMB呢
难说,拿2000块投资这玩意挠痒痒,倒不如加预算搞几张2080ti 22g插满,拿cpu跑除了浪费电想不出有啥必要。
洋垃圾ddr3肯定也是可以的,慢点而已
@F-droid
这位大佬也许知道,是否可行
反正我用TPU跑72B的量化,都很慢,大概2~3 token/s的样子
主要是带宽限制,CPU数量多很多也对速度提升不大
TPU: 96 cpu, 334 GB内存
方向错了,24核+768G拿去开小鸡卖掉,然后就可以买5080了
已标记为最佳解决方案
哈哈
看来CPU跑模型是借口,楼主是想在本地折腾一个服务器。
DDR4内存运行AI都卡得要死,DDR3没法看