MAD Max 超越单节点:在分布式系统上加速大规模机器学习模型
原文中文,约300字,阅读约需1分钟。发表于: 。基于真实世界的大规模模型训练和数据中心规模基础设施,我们展示了 14~32% 的 GPU 时间用于非重叠计算的通信。为了最小化未完成的通信延迟,在这项工作中,我们开发了一个灵活的性能建模框架来指导并行化和硬件软件共同设计策略。通过使用现代 GPU 训练硬件上的真实大规模 ML 模型套件,我们分别展示了预训练和推理场景的 2.24 倍和 5.27 倍的吞吐量提升潜力。
该研究提出了一个利用消费级 GPU 进行大型语言模型的分散系统,实现了动态加入和退出、任务调度、通用性和兼容性等功能,50 个 RTX 3080 GPUs 的吞吐量可与 4 个昂贵的 H100 GPUs 相媲美。