小红花·文摘 - 小红花技术领袖俱乐部

残差连接在Transformer中至关重要，它通过提供直通路径解决深层网络的优化问题，使每层只需学习小的修正。残差连接提高了训练的稳定性，促进了梯度的顺畅传播，避免了梯度消失问题，是Transformer成功的关键因素之一。

【Transformer 与注意力机制】24｜残差连接：为什么深层网络必须留一条直路

土法炼钢兴趣小组的博客 ·

本研究提出了一种新方法，通过引入中间层改善梯度传播，提升动态稀疏训练在大输出空间分类任务中的效率，恢复密集模型的泛化性能，实现高效训练。

极端环境下的动态稀疏性：大输出空间中的应用

BriefGPT - AI 论文速递 ·

本研究提出了LASER注意力机制，解决了Transformers中小梯度信号的问题。LASER通过改进梯度传播，在多项任务上平均提高了约1%的准确率，显著提升了大规模语言模型的泛化能力。

LASER: Attention Mechanism with Exponential Transformation

BriefGPT - AI 论文速递 ·