Transformer 稳定了:一种端到端的信号传播理论用于语言模型
原文中文,约400字,阅读约需1分钟。发表于: 。通过开发统一的信号传播理论和提供控制转换模型中正向和反向信号时刻的公式,本研究致力于理解和缓解与高注意力分数相关的梯度消失 / 爆炸、秩坍缩和不稳定性。我们还提出了 DeepScaleLM,一种初始化和缩放方案,通过整个模型保持单位输出 / 梯度时刻,从而使得能够训练包含上百层的非常深的模型。在多个数据集和模型大小上,我们发现转换模型可以更深 -...
本研究提出了DeepScaleLM,一种能够训练非常深的模型的初始化和缩放方案,通过开发统一的信号传播理论和控制转换模型中正向和反向信号时刻的公式,致力于理解和缓解与高注意力分数相关的问题。实验结果表明,转换模型在多个数据集和模型大小上都优于浅层模型,提高了下游问答任务的性能和图像分类的鲁棒性。