MatFormer: 嵌套变压器用于弹性推理

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

NormFormer 结构通过规范化操作解决 Pre-LayerNorm transformer 的梯度幅度失配问题,改善语言模型的预训练感知度和下游任务表现。使用 NormFormer 结构进行掩蔽语言建模可提高预训练过程的 GLUE 性能 1.9%。

🎯

关键要点

  • NormFormer 结构通过三种规范化操作解决 Pre-LayerNorm transformer 的梯度幅度失配问题。
  • NormFormer 结构在每一层中添加层规范化、自注意力输出的头缩放和全连接层后的层规范化。
  • 与基线模型相比,NormFormer 无需额外计算成本,仅增加 0.4% 参数。
  • NormFormer 改善了不同规模语言模型的预训练感知度和下游任务表现。
  • 在相同计算预算下,NormFormer 比基线模型更快达到相等的预训练感知度。
  • 使用 NormFormer 进行掩蔽语言建模可将 GLUE 性能提高 1.9%。
➡️

继续阅读