小红花·文摘

本研究解决了变换器中信号传播和梯度消失/爆炸的问题，分析了softmax注意力机制初始状态下的传播问题。通过随机矩阵方法，提出消除谱间隙的方法解决宽度上的秩崩溃，并通过实验验证其有效性。

Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layers

BriefGPT - AI 论文速递 ·

本文研究了具有随机权重的深度神经网络中信号传播的性质，揭示了从秩序到混沌的相变，并证明了浅层网络无法有效计算深度随机函数。此外，探讨了深度网络的特征学习、梯度消失问题及其优化方法，提出了可训练的激活函数以提高模型准确性。

随机傅立叶神经网络中的深度学习无需全局优化

BriefGPT - AI 论文速递 ·

本文研究了深度随机初始化的Transformer模型中的信号传播与梯度反向传播，提出了确保可训练性的初始化超参数必要条件。通过理论分析和实验，提出了优化模型性能的建议，解决了深度模型训练不稳定性的问题，并在多语言机器翻译任务中取得了更好的性能。

Transformer 稳定了：一种端到端的信号传播理论用于语言模型

BriefGPT - AI 论文速递 ·

本文研究了随机权重深度神经网络中的信号传播特性，揭示了从秩序到混沌的相变，并证明浅层网络无法有效计算深度随机函数。通过平均场理论分析Transformer模型的信号传播，提出了模型初始化和训练超参数的建议，探讨了自我注意层中的排名坍塌现象及其影响。此外，研究还提出了改进Transformer的新方案，以解决训练不稳定性问题。

信号传播的几何动力学预测 Transformer 的可训练性

BriefGPT - AI 论文速递 ·

该文介绍了一种实现信号在无量纲变压器中可信传播的方法，通过设计参数初始化、偏差矩阵和位置相关的重缩放的组合。该方法能够使深度无量纲变压器在大约 5 倍的迭代次数后达到与标准变压器相同的性能。

简化 Transformer 块

BriefGPT - AI 论文速递 ·