我们考虑使用梯度下降或其变种训练过度参数化的二层神经网络进行非参数回归,并证明了在神经网络使用经典梯度下降方法配合早停止训练时,当目标函数具有在深度学习文献中广泛研究的谱偏差时,训练后的网络提供了更尖锐的广义界限,具有最小化的最优速率。
本研究通过降噪核近似和收敛性分析的方法,研究了SGD算法在过参数化的两层神经网络中的收敛速度。研究发现核方法和优化过程之间存在复杂的相互作用,为神经网络的优化动力学和收敛性质提供了启示。此外,研究还在神经元数量的约束上取得了重要进展,使神经网络的设计和扩展更加灵活。