大模型并行训练指南:通俗理解Megatron-DeepSpeed之模型并行与数据并行
原文中文,约11300字,阅读约需27分钟。发表于: 。BLOOM 的模型架构与GPT3非常相似,只是增加了一些改进,本文稍后将对此进行讨论。该模型是在Jean Zay上训练的,Jean Zay 是由 GENCI 管理的法国政府资助的超级计算机,安装在法国国家科学研究中心 (CNRS) 的国家计算中心IDRIS。训练所需的算力由 GENCI 慷慨捐赠给本项目 (捐赠号 2021-A0101012475)。GPU: 384 张 NVIDIA...
本文是关于在Jean Zay上训练Megatron-DeepSpeed模型的学习笔记。使用了384张NVIDIA A100 80GB GPU和32张备用GPU,采用了数据并行、张量并行和流水线并行等技术。训练过程中遇到了硬件故障和其他问题,但最终成功完成了训练。