小红花·文摘

本文研究了随机权重深度神经网络中的信号传播特性，揭示了从秩序到混沌的相变，并证明浅层网络无法有效计算深度随机函数。通过平均场理论分析Transformer模型的信号传播，提出了模型初始化和训练超参数的建议，探讨了自我注意层中的排名坍塌现象及其影响。此外，研究还提出了改进Transformer的新方案，以解决训练不稳定性问题。

信号传播的几何动力学预测 Transformer 的可训练性

BriefGPT - AI 论文速递 ·

本文研究小规模下训练稳定性和不稳定性的再现和研究方法，探讨了注意力层中逻辑增长和输出逻辑概率分歧的两个训练不稳定性来源，以及学习率、优化器和模型干预对最终损失的影响。通过研究模型激活和梯度范数的缩放行为来预测出现不稳定性的两种情况。

大规模 Transformer 训练不稳定性的小规模代理

BriefGPT - AI 论文速递 ·