小心使用手术刀:通过指数移动平均改进梯度手术

小心使用手术刀:通过指数移动平均改进梯度手术

💡 原文英文,约200词,阅读约需1分钟。
📝

内容提要

深度学习估计流水线通常依赖于辅助目标来量化和鼓励模型的良好特性。最近的研究表明,通过混合梯度可以改善性能,这被称为梯度手术。我们提出了一种方法,通过将训练损失梯度和辅助梯度在训练梯度上的正交投影相结合,来解决这个双层问题。我们展示了我们的方法在自然语言处理和视觉实验中比其他梯度手术方法更好。

🎯

关键要点

  • 深度学习估计流水线通常依赖于辅助目标来量化和鼓励模型的良好特性。

  • 简单的方法是将辅助损失与训练损失相加,但最近的研究表明混合梯度可以改善性能,这被称为梯度手术。

  • 我们将问题视为一个约束最小化问题,其中辅助目标在训练损失的最小化集合中被最小化。

  • 为了解决这个双层问题,我们结合训练损失梯度和辅助梯度在训练梯度上的正交投影。

  • 在小批量梯度的情况下,我们使用训练损失梯度的移动平均来维护正交性。

  • 我们的方法Bloop在自然语言处理和视觉实验中比其他梯度手术方法表现更好。

➡️

继续阅读