本文研究了深度随机初始化的Transformer模型中的信号传播与梯度反向传播,提出了确保可训练性的初始化超参数必要条件。通过理论分析和实验,提出了优化模型性能的建议,解决了深度模型训练不稳定性的问题,并在多语言机器翻译任务中取得了更好的性能。
该研究通过实验和理论方法,对两层 ReLU 神经网络在无限宽度极限下的动态状态及其与初始化超参数的依赖关系进行了完整表征,并绘制了相图。相图中确定了三个区域,分别基于输入权重的相对变化。
完成下面两步后,将自动完成登录并继续当前操作。