小红花·文摘

本文介绍了一种通过降低激活记录来加速大型Transformer模型训练的方法，提出了序列并行和选择性激活重算技术，显著减少了执行时间和激活存储器。同时，研究扩展了Mixture-of-Expert技术的重叠性挑战，提出新的并行计算方法以提升训练效率和吞吐量。此外，介绍了HiRE方案和Galvatron-BMW框架，用于优化模型训练和并行性策略。