Deepseek是否打破部署定式?摆脱GPU?

十年后把A100当E5捡?

1 个赞

哪位富哥部署好了记得展示一下。

安卓佬不是部署了ollama吗?
@F-droid

1 个赞

看AI发展速度的吧。。如果太快了就不需要十年了

以后出现A100神教,在家搞多块A100交火,华擎开发新主板

1 个赞

跑题一下,抛开DeepSeek不谈,只是对于 “摆脱GPU”的问题,要看看 GPU都提供了什么:

  • 计算方面: 笼统地讲就是算力,当前的类GPU架构加速卡,计算能力主要依靠 硬件和软件两方面。硬件上,GPU提供了大量的高性能张量部件,在矩阵计算上相比CPU的向量部件 有很大的优势,以及硬件层面对FP8/FP16等超低精度浮点数的夸张支持。 对于CPU而言,低精度的计算当然可以充分扩展,最简单的比如采用超长向量部件,但弥补仍然较为有限。硬件性能是设备所能提供的天花板性能,但实际模型推理/训练过程中,能达到多少 就非常依赖软件层面的优化,更具体地说,是“算子优化”。 N卡所构建起的CUDA护城河,以及众多研究人员和工程师对N卡提供了非常成熟、覆盖全面的算子优化,相比之下 CPU层面确实较浅,对于一些专用级CPU,当然可以投入人力,编写汇编级别的更加高效的微内核,来更充分挖掘算力。总体而言,在算力方面,我目前的看法是 现有的通用CPU在AI场景下的典型计算中,相比Nvidia-GPU而言,仍然存在 天花板不高、算力利用仍不够充分。(或者说 就不是专门为这个场景设计的)

  • 内存方面: 当前GPU采用HBM内存并进行板上封装,CPU采用DDR4/DDR5的外挂式内存,在容量方面 DDR优势当然很明显,但在显存带宽上,由于HBM采用堆叠的方式,显存带宽要显著高于通用的CPU+DDR模式。哪怕在这样的情况下,内存带宽仍然是众多AI模型在GPU卡上运行时的瓶颈所在。 或者对一些CPU而言,算得慢、访存带宽也低,反而相对平衡,一时间让人说不出瓶颈在哪,当然整体速度也是不理想的;N卡则是算得太快(尤其是FP8这种低精度所带来的比例级算力提升),目前访存带宽方面的技术没跟上,导致core算完后一直在等访存,让访存成为了瓶颈。

4 个赞

我记得正因为pcie交换太慢了。。所以老黄搞了nvlink,但是实际上好像还是存在瓶颈

现在商用还是nvlink么?还是其他方案。有没有大佬说下?

好像英伟达还有一个优势就是混合精度,在同一计算过程中同时使用低精度(如 FP16)和高精度(如 FP32)的浮点数格式

这是另外一点了,目前的推理模式下,不是特别强调响应速度或者实在非常大的模型,一般不需要分布式推理。
那么,当需要进行分布式推理时,就会涉及到 多设备并行计算的问题。
对于N卡而言,分布式拓扑简单粗暴:

  • 单机多卡:顾名思义,单机多张卡,卡与卡之间采用NvLink进行互联通信,仍然是目前行业的领先水准。 一些第三方机构也照猫画虎推出了自己的 XXLink方案,来替代PCIE的孱弱性能。
  • 多机多卡:涉及到多机互联,就必须引入网络设备,目前N卡的成熟方案、以及一些大厂国产GPU机器间的方案,仍然是采用Mellanox的Infini-Band (俗称IB卡),准确地说:每台机器上配备Connect X高性能网卡,通过InfiniBand光纤进行机器之间互联,多台机器高速互联往往需要配套的高速交换机,IB卡互联的机器之间数据通信可以不过CPU,直接通过RDMA协议进行数据交换。老黄确实高瞻远瞩,收购Mellanox和早期开始投入CUDA这两点,令人佩服。

看到了tieba_006

我目前了解到的采用NVLink的N卡,往往需要采购Nvidia的整机方案,例如:DGX、HGX等,因为需要板子的支持,所以一般都是一起出货。 我们平时在H100或者A100的datasheet里,一般都会看到 PCIE NVL之类的区别字样。

分布式计算延迟太高,是不是很难有应用了

安卓佬是隐藏富豪?是不是输出token很慢啊

应该不至于,那些大模型,跑起来都要七八张A100了。。。训练岂不是?

2 个赞

tieba_012我看可能性很大。有机会抱大腿请带上我。

1 个赞

训练也是用nvlink链接的吧

按我的理解。。单节点用nvlink,然后节点之间用光模块高速网络链接

1 个赞

包含光模块