小心使用手术刀:通过指数移动平均改进梯度手术
原文英文,约200词,阅读约需1分钟。发表于: 。Beyond minimizing a single training loss, many deep learning estimation pipelines rely on an auxiliary objective to quantify and encourage desirable properties of the model (e.g. performance on...
深度学习估计流水线通常依赖于辅助目标来量化和鼓励模型的良好特性。最近的研究表明,通过混合梯度可以改善性能,这被称为梯度手术。我们提出了一种方法,通过将训练损失梯度和辅助梯度在训练梯度上的正交投影相结合,来解决这个双层问题。我们展示了我们的方法在自然语言处理和视觉实验中比其他梯度手术方法更好。