Deepseek是否打破部署定式?摆脱GPU?

前几天看到这个视频,看到提到 tokens/s 其实取决于 内存带宽,与运算单元、内存容量关系都不大(没有达到数量级的提升效果)。

满血671B的模型在进行工作时调用的参数量也只是37B,所以它可以在相同的硬件平台上以较高的速度运行。

虽然看上去如果要部署满血 8比特量化的 671B参数的R1,仍然需要很大的内存容量,但似乎 顶级模型 的个人私有部署已经不再是遥不可及。

你会给你的个人私有的R1多少预算?


[译] 大模型推理的极限:理论分析、数学建模与 CPU/GPU 实测(2024)

43 个赞

零预算,我选择不折腾:rofl:

10 个赞

也不一定

8 个赞

大水哥换头像了啊?话说你的部署研究怎么样了

6 个赞

文件夹都没新建呢

5 个赞

昨晚我也看到了,他说他的成本大概在5w,速度似乎是2~4 t/s

4 个赞

嗯,这还是现在瞎折腾的成本,普遍缺乏优化的情况下

我个人能接受 3w 的硬件,500/年 的运行,有至少 15年 的寿命,速度达到 45tokens/s 以上,能力达到 deepseek 官网版 R1,估计过个三五年能实现的样子?

7 个赞

crazy bot

4 个赞

成本有点高了

4 个赞

带宽就是带宽,没有特质,现在看显卡的优势更多是在带宽上,而非先前认为的更适合矩阵运算,CPU的集群方案应该不比GPU的少

5 个赞

显存就是一种特殊的内存啊。非要用CPU来部署模型,那不是和自己过不去吗

4 个赞

还有一个并行计算的优势,这才是决定性的优势吧

4 个赞

DeepSeek是直接编写低级指令(英伟达的 PTX 代码)来提升效率的,依然是利用了GPU的优势

3 个赞

CPU不是比GPU便宜么,咋会是过不去嘞,现在看上去没有特指显存为啥还必须要显卡呢

3 个赞

有一说一能到这个价格我也想入手了。
题外提一嘴,感觉要快就得走显卡。目前显卡跟个消耗品一样,过去图吧捡的垃圾都是x99x79之类的服务器大板子大工作站以及洋垃圾服务器u,这样一批下来用了十年,但是后十年下来的还是只有CPU,这显卡整成易损件消耗品是真遭罪啊,要是显卡不是易损件不是消耗品,十年后(20系的年代的十年后)捡那些卡,跑满血还能速度非常快,呜呜呜呜老黄太坏了啊老黄

3 个赞

我前面那句话确实有点误导了,但是CPU和GPU用起来的性价比差太多了吧

4 个赞

好复杂样子

3 个赞

因为CPU太慢了…内存交换瓶颈警告…

线程开多了…反而慢了…这就是内存瓶颈

2 个赞

这么算下来离民用还远着呢,看看这两年显卡能不能爆发一波吧,这样5年后就能捡垃圾了

2 个赞

视频里也提到了,线程多与内存芯片插槽数反而速度降低了

3 个赞