小红花·文摘

Sharpness-Aware Minimization (SAM)是一种有前景的训练方法，用于改善大型神经网络的泛化性能。本文填补了对非线性神经网络和分类任务中SAM工作原理的理解空白。研究表明，在某种数据模型和两层卷积ReLU网络中，SAM优于随机梯度下降（SGD）。结果解释了SAM的好处，特别是其能够防止早期阶段的噪声学习，并促进更有效的特征学习。通过对合成和真实数据的实验验证了该理论。