Saturn: 高效的多大模型深度学习

我们提出了 Saturn，这是一个新的数据系统，旨在提高多大模型训练的效率，通过解决并行技术选择、GPU 分布以及调度等相关问题，我们建立了一个新的系统架构，通过联合优化方法，在模型选择中运行时间较传统深度学习实践缩短了 39-49%。

该研究展示了基于真实世界的大规模模型训练和数据中心规模基础设施的研究成果，通过GPU时间用于非重叠计算的通信，最小化未完成的通信延迟。研究者开发了一个灵活的性能建模框架来指导并行化和硬件软件共同设计策略。使用现代GPU训练硬件上的真实大规模ML模型套件，研究者展示了预训练和推理场景的2.24倍和5.27倍的吞吐量提升潜力。

GPU 大模型性能建模框架数据中心模型训练深度学习通信