动量 - SAM:无需计算开销的锐度感知最小化
原文中文,约300字,阅读约需1分钟。发表于: 。最近提出的深度神经网络优化算法(Sharpness Aware Minimization)通过在梯度计算之前扰动参数,通过梯度上升步骤将优化引导到损失平坦的参数空间区域。我们提出了动量 - SAM(Momentum-SAM),通过在累积动量向量的方向上扰动参数,实现低锐度,而不会对 SGD 或 Adam 产生重大的计算开销或内存需求。通过详细评估 MSAM,我们揭示了 NAG、SAM 和...
最近提出的深度神经网络优化算法SAM通过扰动参数引导优化到损失平坦的参数空间区域。动量-SAM(MSAM)通过在累积动量向量的方向上扰动参数实现低锐度。通过评估MSAM揭示了NAG、SAM和MSAM在训练优化和泛化方面的分离机制的洞察。