MatFormer: 嵌套变压器用于弹性推理
原文中文,约400字,阅读约需1分钟。
📝
内容提要
NormFormer 结构通过规范化操作解决 Pre-LayerNorm transformer 的梯度幅度失配问题,改善语言模型的预训练感知度和下游任务表现。使用 NormFormer 结构进行掩蔽语言建模可提高预训练过程的 GLUE 性能 1.9%。
🎯
关键要点
-
NormFormer 结构通过三种规范化操作解决 Pre-LayerNorm transformer 的梯度幅度失配问题。
-
NormFormer 结构在每一层中添加层规范化、自注意力输出的头缩放和全连接层后的层规范化。
-
与基线模型相比,NormFormer 无需额外计算成本,仅增加 0.4% 参数。
-
NormFormer 改善了不同规模语言模型的预训练感知度和下游任务表现。
-
在相同计算预算下,NormFormer 比基线模型更快达到相等的预训练感知度。
-
使用 NormFormer 进行掩蔽语言建模可将 GLUE 性能提高 1.9%。
🏷️