大模型分布式训练

brown_t · 2024 年11 月 14 日 16:20

大哥们谁知道torch.save的70B模型怎么在8张A100分布式训练

Luminus · 2024 年11 月 14 日 16:23

佬可否 v 我 5 张

Cherrry · 2024 年11 月 14 日 16:23

把八张a100组个组，算力动态分配

brown_t · 2024 年11 月 14 日 16:31

解决了就分

brown_t · 2024 年11 月 14 日 16:32

没接触过，佬能细说下嘛，我一直以为大模型这玩意也就是参数量大点，原来里面那么多弯弯绕绕

simpleamzx · 2024 年11 月 14 日 16:34

其实也不难，github上有很多开源的项目部署之后，就可以傻瓜式训练了，像LLaMA-Factory、Text generation web UI或者vllm都可以

brown_t · 2024 年11 月 14 日 16:36

主要是不能from_pretrained加载，是剪枝后的模型，结构有改变呜呜呜

simpleamzx · 2024 年11 月 14 日 16:41

把问题抛给claude试试看，不行就社区找找答案

brown_t · 2024 年11 月 14 日 16:42

好的哥，没用过claude还，我去试试

Becomingw · 2024 年11 月 14 日 16:44

你这个70B是大语言模型吗？全量微调？
之前看到过一个微调llama的

brown_t · 2024 年11 月 14 日 16:48

是剪枝后的大语言模型，结构变了很多东西没法用呜呜呜

WhoToFind · 2024 年11 月 14 日 21:25

deepspeed，改不动就torch-run，直接实现torch分布式那几个类就行

bi_ke · 2024 年11 月 15 日 09:56

不懂，好像有一个分布式的理论和这个很像，MapReduce，分而治之

话题		回复	浏览量
想在服务器部署开源模型开发调优 ChatGPT , 人工智能 , 职场 , 快问快答	9	672	2024 年11 月 30 日
听过国内大模型一起研发了一个比GPT-4o 还厉害的模型？开发调优 ChatGPT , 快问快答	52	1539	2025 年1 月 1 日
OpenAI发布o1模型强化微调功能，未来是否可以用这个功能训练一个LINUXDO论坛万事通开发调优 ChatGPT , OpenAI , 人工智能 , 快问快答	8	263	2024 年12 月 7 日
免费AI模型Wbot-4:347B API开放使用资源荟萃人工智能 , 公益推广	47	1710	2025 年4 月 12 日
马士兵-AI大模型全链路实战（无密）资源荟萃 AFF , 夸克网盘 , 百度网盘	26	1061	2025 年4 月 10 日