神经网络如何学习:隐含于随机梯度下降的正则化效应
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文研究了使用随机梯度下降(SGD)训练两层神经网络(NN),证明了NN的第一层权重将收敛于真实模型的主子空间,进一步证明了使用SGD训练的ReLU NNs可以学习单指标目标,样本复杂度与d成线性关系。
🎯
关键要点
- 本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN)。
- 输入 x 是高斯分布的,目标 y 遵循多指数模型。
- 证明了当基于 SGD 和权重衰减进行训练时,NN 的第一层权重将收敛于真实模型的主子空间。
- 建立了一个独立于 NN 宽度的一般化误差边界。
- 使用 SGD 训练的 ReLU NNs 可以学习单指标目标,样本复杂度与 d 成线性关系。
- 这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。
➡️