通过渐进子网络实现高效的分步预训练
原文中文,约500字,阅读约需2分钟。发表于: 。近期大型语言模型的发展引发了对高效预训练方法的关注,本论文提出了一种阶段递增训练的替代框架 -- 渐进子网络训练,其中的一个简单实例是随机路径训练(RaPTr),通过在每一步中只训练模型内的子路径,逐步增加路径长度,RaPTr 可以在对 BERT 和 UL2 语言模型进行更好的预训练损失的同时,相比标准训练,减少 20-33%的...
本论文提出了一种阶段递增训练的替代框架RaPTr,通过逐步增加路径长度,在对BERT和UL2语言模型进行更好的预训练损失的同时减少FLOPs。RaPTr在UL2上表现出更好的下游性能,对QA任务和SuperGLUE的改进幅度可达1-5%。理论基础证明了子网络在各阶段的复杂性递增,以及由于残差连接和层归一化而导致的损失在阶段转换中的稳定性。