关于无替换的 SGD 轨迹
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文研究了基于随机梯度下降(SGD)的隐式正则化效应,发现其与添加新型正则化器时的最优化过程等价,导致其在损失函数空间中与注入噪声的GD和采样独立同分布的SGD有明显不同的轨迹,并在某些视觉任务中鼓励损失函数海森矩阵的特征值谱中出现稀疏性。
🎯
关键要点
-
研究了基于随机梯度下降(SGD)的隐式正则化效应。
-
发现SGD无替换的情况与添加新型正则化器的最优化过程等价。
-
SGD在损失函数空间中的轨迹与注入噪声的GD和采样独立同分布的SGD明显不同。
-
在某些视觉任务中,SGD鼓励损失函数海森矩阵的特征值谱出现稀疏性。
➡️