动量 - SAM:无需计算开销的锐度感知最小化

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

最近提出的深度神经网络优化算法SAM通过扰动参数引导优化到损失平坦的参数空间区域。动量-SAM(MSAM)通过在累积动量向量的方向上扰动参数实现低锐度。通过评估MSAM揭示了NAG、SAM和MSAM在训练优化和泛化方面的分离机制的洞察。

🎯

关键要点

  • 最近提出的深度神经网络优化算法SAM通过扰动参数引导优化到损失平坦的参数空间区域。
  • 动量-SAM(MSAM)通过在累积动量向量的方向上扰动参数实现低锐度。
  • MSAM在计算开销和内存需求上不会对SGD或Adam产生重大影响。
  • 通过详细评估MSAM,揭示了NAG、SAM和MSAM在训练优化和泛化方面的分离机制的洞察。
➡️

继续阅读