【Transformer 与注意力机制】24|残差连接:为什么深层网络必须留一条直路

💡 原文中文,约8200字,阅读约需20分钟。
📝

内容提要

残差连接在Transformer中至关重要,它通过提供直通路径解决深层网络的优化问题,使每层只需学习小的修正。残差连接提高了训练的稳定性,促进了梯度的顺畅传播,避免了梯度消失问题,是Transformer成功的关键因素之一。

🎯

关键要点

  • 残差连接为深层网络提供了直通路径,解决了优化问题。
  • 每层只需学习小的修正,而不是从零开始的大变换。
  • 残差连接提高了训练的稳定性,促进了梯度的顺畅传播。
  • Transformer中的每个block至少有两次残差相加,分别来自attention和FFN子层。
  • 残差连接为反向传播提供了高速路,改变了深层网络的梯度传播方式。
  • 残差连接使得深层网络更接近恒等映射,改善了梯度消失问题。
  • 残差连接与归一化结合,提升了深层训练的稳定性。
  • 每层在前一层的表示上进行增量式修正,形成了residual stream。
  • Transformer对残差的依赖更强,因为每层的改写能力较大。
  • Pre-Norm结构比Post-Norm更适合深层模型的训练。
  • 残差连接不仅是训练技巧,也是理解模型内部机制的重要窗口。
➡️

继续阅读