小红花·文摘

本文研究了显式正则化与随机梯度下降（SGD）在深度神经网络中的作用，发现显式正则化对高参数化网络的成功贡献更大。适当的学习率能提高SGD的准确性，隐式正则化项有助于网络向简单模型发展。研究表明，SGD在超参数化区域具有良好的泛化能力，并提出了一个框架来研究其隐式偏差。