解密分布式变换器模型的通信特性

本研究针对深度学习领域中分布式训练的通信瓶颈进行了分析，尤其是在变换器模型的上下文中。通过对GPT模型的实证分析和理论验证，提出了进一步优化小消息点对点通信的必要性，并揭示了序列长度、每个GPU的吞吐量和模型规模之间的相关性，为框架和高性能计算中间件的设计和优化指明了方向。

该论文提出了一种新的分布式训练方法，使用LSS Transformer来训练长序列的变压器。通过融合通信和双梯度平均技术，提高训练效率和减少通信开销。在Wikipedia enwik8数据集上，方法在144个Nvidia V100 GPU上实现了5.6倍的加速和10.2倍的内存效率。可扩展到长度达到50,112的极限序列，实现了161%的超线性并行效率和32 petaflops的吞吐量。