通过渐进子网络实现高效的分步预训练

近期大型语言模型的发展引发了对高效预训练方法的关注，本论文提出了一种阶段递增训练的替代框架 -- 渐进子网络训练，其中的一个简单实例是随机路径训练（RaPTr），通过在每一步中只训练模型内的子路径，逐步增加路径长度，RaPTr 可以在对 BERT 和 UL2 语言模型进行更好的预训练损失的同时，相比标准训练，减少 20-33％的...

本论文提出了一种阶段递增训练的替代框架RaPTr，通过逐步增加路径长度，在对BERT和UL2语言模型进行更好的预训练损失的同时减少FLOPs。RaPTr在UL2上表现出更好的下游性能，对QA任务和SuperGLUE的改进幅度可达1-5％。理论基础证明了子网络在各阶段的复杂性递增，以及由于残差连接和层归一化而导致的损失在阶段转换中的稳定性。

FLOPs RaPTr 下游性能阶段递增训练预训练损失