小红花·文摘

本研究探讨了变压器模型在短序列训练后对长序列泛化不良的问题。通过分析消失方差，证明了长序列导致多头注意力模块输出方差降低。实验结果表明，在注意力输出后应用层归一化能显著改善长度泛化效果，减少分布偏移。