NormFormer 结构通过规范化操作解决 Pre-LayerNorm transformer 的梯度幅度失配问题,改善语言模型的预训练感知度和下游任务表现。使用 NormFormer 结构进行掩蔽语言建模可提高预训练过程的 GLUE 性能 1.9%。
完成下面两步后,将自动完成登录并继续当前操作。