大哥们 谁知道torch.save的70B模型怎么在8张A100分布式训练
13 个赞
佬可否 v 我 5 张
把八张a100组个组,算力动态分配
解决了就分
没接触过,佬能细说下嘛,我一直以为大模型这玩意也就是参数量大点,原来里面那么多弯弯绕绕
其实也不难,github上有很多开源的项目部署之后,就可以傻瓜式训练了,像LLaMA-Factory、Text generation web UI或者vllm都可以
主要是不能from_pretrained加载,是剪枝后的模型,结构有改变呜呜呜
把问题抛给claude试试看,不行就社区找找答案
好的哥,没用过claude还,我去试试
你这个70B是大语言模型吗?全量微调?
之前看到过一个微调llama的
是剪枝后的大语言模型,结构变了很多东西没法用呜呜呜
deepspeed,改不动就torch-run,直接实现torch分布式那几个类就行
不懂,好像有一个分布式的理论和这个很像,MapReduce,分而治之