被忽略的 Hessian 成分解释了在锐度正则化中的谜团

📝

内容提要

最近的研究表明,诸如 SAM 之类的方法能够明确或隐含地对二阶信息进行惩罚,从而提高深度学习的泛化能力。然而,权重噪声和梯度惩罚等看似类似的方法通常无法提供这样的好处。本文通过损失函数的海塞矩阵结构展示了这些差异可以得到解释。首先,我们展示了海塞矩阵的一个常见分解可以定量解释特征的利用和探索。探索特征可以由非线性建模误差矩阵 (NME)...

🏷️

标签

➡️

继续阅读