Deepseek是否打破部署定式？摆脱GPU？

yeahhe · 2025 年2 月 10 日 12:58

十年后把A100当E5捡？

slashkkk · 2025 年2 月 10 日 13:15

哪位富哥部署好了记得展示一下。

yeahhe · 2025 年2 月 10 日 13:50

安卓佬不是部署了ollama吗？
@F-droid

kiki · 2025 年2 月 10 日 13:51

看AI发展速度的吧。。如果太快了就不需要十年了

yeahhe · 2025 年2 月 10 日 13:53

以后出现A100神教，在家搞多块A100交火，华擎开发新主板

Bennett1987 · 2025 年2 月 10 日 13:56

跑题一下，抛开DeepSeek不谈，只是对于 “摆脱GPU”的问题，要看看 GPU都提供了什么：

计算方面：笼统地讲就是算力，当前的类GPU架构加速卡，计算能力主要依靠硬件和软件两方面。硬件上，GPU提供了大量的高性能张量部件，在矩阵计算上相比CPU的向量部件有很大的优势，以及硬件层面对FP8/FP16等超低精度浮点数的夸张支持。对于CPU而言，低精度的计算当然可以充分扩展，最简单的比如采用超长向量部件，但弥补仍然较为有限。硬件性能是设备所能提供的天花板性能，但实际模型推理/训练过程中，能达到多少就非常依赖软件层面的优化，更具体地说，是“算子优化”。 N卡所构建起的CUDA护城河，以及众多研究人员和工程师对N卡提供了非常成熟、覆盖全面的算子优化，相比之下 CPU层面确实较浅，对于一些专用级CPU，当然可以投入人力，编写汇编级别的更加高效的微内核，来更充分挖掘算力。总体而言，在算力方面，我目前的看法是现有的通用CPU在AI场景下的典型计算中，相比Nvidia-GPU而言，仍然存在天花板不高、算力利用仍不够充分。(或者说就不是专门为这个场景设计的)
内存方面：当前GPU采用HBM内存并进行板上封装，CPU采用DDR4/DDR5的外挂式内存，在容量方面 DDR优势当然很明显，但在显存带宽上，由于HBM采用堆叠的方式，显存带宽要显著高于通用的CPU+DDR模式。哪怕在这样的情况下，内存带宽仍然是众多AI模型在GPU卡上运行时的瓶颈所在。或者对一些CPU而言，算得慢、访存带宽也低，反而相对平衡，一时间让人说不出瓶颈在哪，当然整体速度也是不理想的；N卡则是算得太快(尤其是FP8这种低精度所带来的比例级算力提升)，目前访存带宽方面的技术没跟上，导致core算完后一直在等访存，让访存成为了瓶颈。

kiki · 2025 年2 月 10 日 13:58

我记得正因为pcie交换太慢了。。所以老黄搞了nvlink，但是实际上好像还是存在瓶颈

kiki · 2025 年2 月 10 日 13:58

现在商用还是nvlink么？还是其他方案。有没有大佬说下？

yeahhe · 2025 年2 月 10 日 14:02

好像英伟达还有一个优势就是混合精度，在同一计算过程中同时使用低精度（如 FP16）和高精度（如 FP32）的浮点数格式

Bennett1987 · 2025 年2 月 10 日 14:06

这是另外一点了，目前的推理模式下，不是特别强调响应速度或者实在非常大的模型，一般不需要分布式推理。
那么，当需要进行分布式推理时，就会涉及到多设备并行计算的问题。
对于N卡而言，分布式拓扑简单粗暴：

单机多卡：顾名思义，单机多张卡，卡与卡之间采用NvLink进行互联通信，仍然是目前行业的领先水准。一些第三方机构也照猫画虎推出了自己的 XXLink方案，来替代PCIE的孱弱性能。
多机多卡：涉及到多机互联，就必须引入网络设备，目前N卡的成熟方案、以及一些大厂国产GPU机器间的方案，仍然是采用Mellanox的Infini-Band (俗称IB卡)，准确地说：每台机器上配备Connect X高性能网卡，通过InfiniBand光纤进行机器之间互联，多台机器高速互联往往需要配套的高速交换机，IB卡互联的机器之间数据通信可以不过CPU，直接通过RDMA协议进行数据交换。老黄确实高瞻远瞩，收购Mellanox和早期开始投入CUDA这两点，令人佩服。

slashkkk · 2025 年2 月 10 日 14:10

看到了

Bennett1987 · 2025 年2 月 10 日 14:10

我目前了解到的采用NVLink的N卡，往往需要采购Nvidia的整机方案，例如：DGX、HGX等，因为需要板子的支持，所以一般都是一起出货。我们平时在H100或者A100的datasheet里，一般都会看到 PCIE NVL之类的区别字样。

yeahhe · 2025 年2 月 10 日 14:10

分布式计算延迟太高，是不是很难有应用了

yeahhe · 2025 年2 月 10 日 14:11

安卓佬是隐藏富豪？是不是输出token很慢啊

kiki · 2025 年2 月 10 日 14:11

应该不至于，那些大模型，跑起来都要七八张A100了。。。训练岂不是？

slashkkk · 2025 年2 月 10 日 14:12

我看可能性很大。有机会抱大腿请带上我。

yeahhe · 2025 年2 月 10 日 14:12

训练也是用nvlink链接的吧

kiki · 2025 年2 月 10 日 14:13

按我的理解。。单节点用nvlink，然后节点之间用光模块高速网络链接

yeahhe · 2025 年2 月 10 日 14:16

yeahhe · 2025 年2 月 10 日 14:18

包含光模块

话题		回复	浏览量
16G显存运行满血DeepSeek 搞七捻三人工智能	55	1018	2025 年2 月 12 日
本来看完昨天5090感觉AI算力提了很多，结果看来4090还是真香搞七捻三人工智能 , 纯水	38	1491	2025 年1 月 18 日
DeepSeek技术解析：如何冲击英伟达两大壁垒？前沿快讯	2	186	2025 年2 月 8 日
今天买了台新PC，本地部署了Open WebUI+Ollama 搞七捻三 ollama , 人工智能 , OpenWebUI , 纯水	107	2340	2025 年1 月 30 日
求推荐双卡或四卡的主板开发调优人工智能 , 快问快答	42	481	2025 年2 月 7 日

Deepseek是否打破部署定式？摆脱GPU？

相关话题