MatFormer: 嵌套变压器用于弹性推理
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
NormFormer 结构通过规范化操作解决 Pre-LayerNorm transformer 的梯度幅度失配问题,改善语言模型的预训练感知度和下游任务表现。使用 NormFormer 结构进行掩蔽语言建模可提高预训练过程的 GLUE 性能 1.9%。
🎯
关键要点
- NormFormer 结构通过三种规范化操作解决 Pre-LayerNorm transformer 的梯度幅度失配问题。
- NormFormer 结构在每一层中添加层规范化、自注意力输出的头缩放和全连接层后的层规范化。
- 与基线模型相比,NormFormer 无需额外计算成本,仅增加 0.4% 参数。
- NormFormer 改善了不同规模语言模型的预训练感知度和下游任务表现。
- 在相同计算预算下,NormFormer 比基线模型更快达到相等的预训练感知度。
- 使用 NormFormer 进行掩蔽语言建模可将 GLUE 性能提高 1.9%。
➡️