大模型分布式训练

大哥们 谁知道torch.save的70B模型怎么在8张A100分布式训练:sob:

13 个赞

佬可否 v 我 5 张 :face_holding_back_tears:

把八张a100组个组,算力动态分配:rofl::rofl:

解决了就分:imp:

没接触过,佬能细说下嘛,我一直以为大模型这玩意也就是参数量大点,原来里面那么多弯弯绕绕

其实也不难,github上有很多开源的项目部署之后,就可以傻瓜式训练了,像LLaMA-Factory、Text generation web UI或者vllm都可以

主要是不能from_pretrained加载,是剪枝后的模型,结构有改变呜呜呜

把问题抛给claude试试看,不行就社区找找答案

好的哥,没用过claude还,我去试试

你这个70B是大语言模型吗?全量微调?
之前看到过一个微调llama的

是剪枝后的大语言模型,结构变了很多东西没法用呜呜呜

deepspeed,改不动就torch-run,直接实现torch分布式那几个类就行

不懂,好像有一个分布式的理论和这个很像,MapReduce,分而治之 :melting_face: :melting_face: