神经网络如何学习:隐含于随机梯度下降的正则化效应 原文中文,约300字,阅读约需1分钟。发表于:2024-06-17T00:00:00Z。 深度神经网络能够有效地学习目标函数的支持,并且小批量随机梯度下降具有隐式正则化效果,通过学习特征的结构,提高特征的可解释性。 本文研究了使用随机梯度下降(SGD)训练两层神经网络(NN),证明了NN的第一层权重将收敛于真实模型的主子空间,进一步证明了使用SGD训练的ReLU NNs可以学习单指标目标,样本复杂度与d成线性关系。 ReLU 主子空间 样本复杂度 神经网络 随机梯度下降