小红花·文摘

本文研究了使用随机梯度下降（SGD）训练两层神经网络（NN），证明了NN的第一层权重将收敛于真实模型的主子空间，进一步证明了使用SGD训练的ReLU NNs可以学习单指标目标。