混合精度的支持,其实更多依赖于软件实现上。
混合精度应该用在训练居多吧,最早提出混精训练的是2016年, MIXED PRECISION TRAINING,观察作者列表,你会发现是 百度和Nvidia,真的很神奇,baidu这么些年怎么和谷歌类似,把把优先局 然后逐渐逆风 落后。
推理方面,更多的应该是量化和反量化。
混合精度的难点在于 模型精度(收敛)和训练速度之间的trade-off。
要准确分辨前向、反向、优化器更迭 哪些部分可以用低精度取代高精度来进行加速和一部分内存降低。 以及当出现训练不收敛、不稳定等情况后,如何解决(比如 loss-scale解决梯度过小、mater-weight备份解决参数更新时的舍入误差)。
工程上的难点,在于一套覆盖广、计算性能和计算精度都足够好的混合精度算子库、以及混精引擎。
Nvidia首先在硬件上做了非常好的精度性能支持,同时在软件上给出了 开箱即用的Apex。关于APEX的重要功能又在后来被吸纳到了 PyTorch的AMP当中。
1 个赞
单卡无法容纳的大模型训练,基本都是分布式的。分布式的性能损耗主要在同步时的通信性能问题。
然后关于nvlink和ib的问题,我上面简单说了下,单机多卡之间有nvlink用nv,没有就PCIE走起。
但是多机之间,基本是靠高速自研光模块、或者商用的 Nvidia的IB,IB需要的支持:高速网卡(Connect X系列)、 光模+光纤(是在一块的),有条件的 再用上MLX的IB交换机。 IB本身是这一整套方案的技术名,只不过大家日常运维中简称IB卡、IB机、IB线。
1 个赞
CPU上推模型,一直都是可以的,只不过看你对性能的接受程度。
甚至多机CPU之间也是可以训模型的,哪怕不用Nvidia的那套方案,CPU+DDR+万兆网(MPI通信) 也能组集群训模型,只不过:
- 算力利用率很难做到N卡那么好。
- 整个方案中,性能完全落败,单独你这套方案来看,哪里都不算瓶颈;同CPU+GPU+HBM+IB(NCCL)的方案去比较,哪哪都是瓶颈。
摆脱GPU,能不能用,能用;但是否能达到性能要求,每个人都有不同的参考系和接受程度。
但如果说要达到接近GPU的模式,还是有不小的距离,软件层面的优化上、硬件架构的革新上,以及硬件性能的突破山,都有不小的距离。
1 个赞
对于GPU目前的这套范式,基本延续了传统HPC性能论调:
GPU计算>GPU访存>板上互联(NvLink) > 机间网络(IB高速/万兆以太) > 硬盘IO
我也是,2-4w之间如果能跑R1这个水平的AI有50t/s 我觉得可以接受的.
现在的AI就像1990年的PC,特别贵,个人使用价值太低
看具体的对比例子了。通用CPU不好评价,国内的一些CPU架构的加速卡,做到A100的10分之一及以上还是可以的。
2 个赞
hh,一般不跨城,现在所谓的分布式训练、分布式推理 都是在一个机房的众多机器之间、机柜之间 这种形式。
yeahhe
(Mozi)
54
这个要看政府调控,Intel现在衰落了,美国政府就帮Intel重新起来对抗AMD和台积电。以后可能还要支持新GPU企业出现?
经过这2 3年的大量回旋镖,我个人是很有期望未来国产GPU会打爆英伟达/AMD/Intel/苹果的垄断.
苹果现在虽然贵点,但是4w左右的studio好歹120~192G的统一内存,是能跑120b的模型,个人部署是可用的了,就是GPU太差了,token/s 太低太慢.
它们几大巨无霸企业很有默契的一人吃饱一个领域.
iPhoneX年代的60阶GTX960才1399,现在5060得卖你3599了,
我就不明白了,为什么不能给4080或者5080这样的GPU上大显存版本?
到底是显存贵还是垄断贵?
2-4w之间如果能跑R1这个水平的AI有50t/s 我觉得可以接受的.
现在的AI就像1990年的PC,特别贵,个人使用价值太低.
跨城训练这个 确实没敢想,业界暂时应该没有这么干的,跨域网络之间的延迟代价太高。
但是联邦学习这种,典型的Edge侧(边缘设备)的分布式方案,本身就是为跨域设计的,对于一些高隐私场景比如医院、银行等,或者将来用户的手机上,需要使用模型、发掘端侧设备算力、又不希望数据交给平台,就采用联邦学习的方式,把在自己设备上训练的模型发到中心,中心执行一个模型聚合 统一更新 再下方的方式,这样既保护了隐私,大家又都拿到了优质的模型,这种更类似是中心化服务。
1 个赞
现在就是分开卖的。
Nvidia -GeForce是游戏卡,-Tesla 是数据中心的卡(专门做AI训练的主力卡A/H/B,以及推理的L卡),以及达芬奇卡 做图形的。