本文研究了显式正则化与随机梯度下降(SGD)在深度神经网络中的作用,发现显式正则化对高参数化网络的成功贡献更大。适当的学习率能提高SGD的准确性,隐式正则化项有助于网络向简单模型发展。研究表明,SGD在超参数化区域具有良好的泛化能力,并提出了一个框架来研究其隐式偏差。
完成下面两步后,将自动完成登录并继续当前操作。