动量 - SAM:无需计算开销的锐度感知最小化
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
最近提出的深度神经网络优化算法SAM通过扰动参数引导优化到损失平坦的参数空间区域。动量-SAM(MSAM)通过在累积动量向量的方向上扰动参数实现低锐度。通过评估MSAM揭示了NAG、SAM和MSAM在训练优化和泛化方面的分离机制的洞察。
🎯
关键要点
- 最近提出的深度神经网络优化算法SAM通过扰动参数引导优化到损失平坦的参数空间区域。
- 动量-SAM(MSAM)通过在累积动量向量的方向上扰动参数实现低锐度。
- MSAM在计算开销和内存需求上不会对SGD或Adam产生重大影响。
- 通过详细评估MSAM,揭示了NAG、SAM和MSAM在训练优化和泛化方面的分离机制的洞察。
🏷️
标签
➡️