【Transformer 与注意力机制】24|残差连接:为什么深层网络必须留一条直路
💡
原文中文,约8200字,阅读约需20分钟。
📝
内容提要
残差连接在Transformer中至关重要,它通过提供直通路径解决深层网络的优化问题,使每层只需学习小的修正。残差连接提高了训练的稳定性,促进了梯度的顺畅传播,避免了梯度消失问题,是Transformer成功的关键因素之一。
🎯
关键要点
- 残差连接为深层网络提供了直通路径,解决了优化问题。
- 每层只需学习小的修正,而不是从零开始的大变换。
- 残差连接提高了训练的稳定性,促进了梯度的顺畅传播。
- Transformer中的每个block至少有两次残差相加,分别来自attention和FFN子层。
- 残差连接为反向传播提供了高速路,改变了深层网络的梯度传播方式。
- 残差连接使得深层网络更接近恒等映射,改善了梯度消失问题。
- 残差连接与归一化结合,提升了深层训练的稳定性。
- 每层在前一层的表示上进行增量式修正,形成了residual stream。
- Transformer对残差的依赖更强,因为每层的改写能力较大。
- Pre-Norm结构比Post-Norm更适合深层模型的训练。
- 残差连接不仅是训练技巧,也是理解模型内部机制的重要窗口。
🏷️
标签
➡️