本文研究了基于随机梯度下降(SGD)的隐式正则化效应,发现其与添加新型正则化器时的最优化过程等价,导致其在损失函数空间中与注入噪声的GD和采样独立同分布的SGD有明显不同的轨迹,并在某些视觉任务中鼓励损失函数海森矩阵的特征值谱中出现稀疏性。
完成下面两步后,将自动完成登录并继续当前操作。