小红花·文摘

本论文提出了一种阶段递增训练的替代框架RaPTr，通过逐步增加路径长度，在对BERT和UL2语言模型进行更好的预训练损失的同时减少FLOPs。RaPTr在UL2上表现出更好的下游性能，对QA任务和SuperGLUE的改进幅度可达1-5％。理论基础证明了子网络在各阶段的复杂性递增，以及由于残差连接和层归一化而导致的损失在阶段转换中的稳定性。