机器之心 ·

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

字节跳动的豆包大模型团队提出了超连接（Hyper-Connections），作为残差连接的替代方案，有效解决了梯度消失和表示崩溃的问题。该方法在Dense和MoE模型的预训练中显著提升性能，收敛速度提高了80%。超连接通过动态调整连接权重，适用于大规模语言模型和视觉任务，具有广泛的应用前景。

🎯

🔎

超连接（Hyper-Connections）通过动态调整连接权重，有效解决了残差连接在梯度消失和表示崩溃之间的权衡问题。这一创新不仅在大规模语言模型的预训练中表现出色，还在视觉任务中同样取得了优异的效果，显示出其广泛的应用潜力。

超连接分为静态和动态两种形式。静态超连接在训练后固定权重，而动态超连接则根据输入动态调整权重。实验表明，动态超连接在语言建模任务中表现更佳，提示研究者在实际应用中应优先考虑动态超连接的实现方式。

尽管残差连接在深度学习中广泛应用，但其变体如Pre-Norm和Post-Norm各自存在局限性，无法同时有效解决梯度消失和表示崩溃的问题。超连接的提出为克服这些局限提供了新的思路，值得关注其在未来研究中的发展。

❓

超连接是一种替代残差连接的方法，通过动态调整连接权重来解决梯度消失和表示崩溃的问题。

超连接在Dense和MoE模型的预训练中显著提升性能，使收敛速度提高了80%。

超连接能够动态调整连接权重，解决残差连接在梯度消失和表示崩溃之间的权衡问题，且几乎不增加计算开销。

超连接适用于大规模语言模型（LLMs）和视觉任务，具有广泛的应用前景。

动态超连接的权重根据输入动态调整，而静态超连接的权重在训练结束后固定不变。

超连接的引入几乎不增加额外的计算开销或参数量，具有广泛的应用潜力。

🏷️