土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】24｜残差连接：为什么深层网络必须留一条直路

💡 原文中文，约8200字，阅读约需20分钟。

📝

内容提要

残差连接在Transformer中至关重要，它通过提供直通路径解决深层网络的优化问题，使每层只需学习小的修正。残差连接提高了训练的稳定性，促进了梯度的顺畅传播，避免了梯度消失问题，是Transformer成功的关键因素之一。

🎯

🔎

残差连接为深层网络提供了一条直通路径，使得每层只需学习小的修正，而非从零开始的复杂变换。这种设计显著提高了训练的稳定性，尤其在深层模型中，避免了梯度消失的问题。理解这一点对于优化深层网络的训练过程至关重要。

残差连接与归一化技术的结合是深层模型训练成功的关键。残差提供了直通路径，而归一化则确保了旁路修正不会过于剧烈。两者共同作用，使得模型在训练过程中能够保持稳定，尤其是在层数较多的情况下。

Transformer模型对残差连接的依赖性较强，主要因为每层的attention和FFN子层都具有较大的改写能力。没有残差，深层网络的训练将变得极为困难。因此，在设计深层Transformer时，残差连接是不可或缺的组成部分。

🏷️