【Transformer 与注意力机制】24|残差连接:为什么深层网络必须留一条直路
内容提要
残差连接在Transformer中至关重要,它通过提供直通路径解决深层网络的优化问题,使每层只需学习小的修正。残差连接提高了训练的稳定性,促进了梯度的顺畅传播,避免了梯度消失问题,是Transformer成功的关键因素之一。
关键要点
-
残差连接为深层网络提供了直通路径,解决了优化问题。
-
每层只需学习小的修正,而不是从零开始的大变换。
-
残差连接提高了训练的稳定性,促进了梯度的顺畅传播。
-
Transformer中的每个block至少有两次残差相加,分别来自attention和FFN子层。
-
残差连接为反向传播提供了高速路,改变了深层网络的梯度传播方式。
-
残差连接使得深层网络更接近恒等映射,改善了梯度消失问题。
-
残差连接与归一化结合,提升了深层训练的稳定性。
-
每层在前一层的表示上进行增量式修正,形成了residual stream。
-
Transformer对残差的依赖更强,因为每层的改写能力较大。
-
Pre-Norm结构比Post-Norm更适合深层模型的训练。
-
残差连接不仅是训练技巧,也是理解模型内部机制的重要窗口。
延伸解读
残差连接的优化作用
残差连接为深层网络提供了一条直通路径,使得每层只需学习小的修正,而非从零开始的复杂变换。这种设计显著提高了训练的稳定性,尤其在深层模型中,避免了梯度消失的问题。理解这一点对于优化深层网络的训练过程至关重要。
残差与归一化的结合
残差连接与归一化技术的结合是深层模型训练成功的关键。残差提供了直通路径,而归一化则确保了旁路修正不会过于剧烈。两者共同作用,使得模型在训练过程中能够保持稳定,尤其是在层数较多的情况下。
深层Transformer的依赖性
Transformer模型对残差连接的依赖性较强,主要因为每层的attention和FFN子层都具有较大的改写能力。没有残差,深层网络的训练将变得极为困难。因此,在设计深层Transformer时,残差连接是不可或缺的组成部分。