小红花·文摘

本文研究了深度随机初始化的Transformer模型中的信号传播与梯度反向传播，提出了确保可训练性的初始化超参数必要条件。通过理论分析和实验，提出了优化模型性能的建议，解决了深度模型训练不稳定性的问题，并在多语言机器翻译任务中取得了更好的性能。

BriefGPT - AI 论文速递 ·

我们提出了一种新方法，利用网格作为指导机制来编辑神经辐射场，实现了梯度反向传播，使用户能够轻松操作神经辐射场的几何和颜色。通过引入基于八叉树的结构来优化用户控制性，实现了对神经隐式场的细粒度编辑，并适应了各种用户修改。通过实验展示了方法的能力和有效性。

BriefGPT - AI 论文速递 ·

本研究提出了一种使用超几何位置编码（HyPE）来编码令牌相对位置的新方法，支持梯度反向传播。通过仔细的超参数选择，HyPE 可以近似于 ALiBi 的注意力偏置，具有良好的泛化能力。

BriefGPT - AI 论文速递 ·

Focal Loss是一种在线难例挖掘方法，它通过以较大的梯度反向传播，将模型的注意力放在较难学习的样本上，以提高模型的效果。

华为云官方博客 ·