连续时间随机梯度下降的收敛性及其在线性深度神经网络中的应用 原文中文,约400字,阅读约需1分钟。发表于:2024-09-11T00:00:00Z。 本文研究了随机梯度下降过程的连续时间近似,旨在最小化学习问题中的期望损失。研究结果扩展了Chatterjee(2022)针对(非随机)梯度下降的收敛性结果,且具体应用于过参数化线性神经网络的训练中,揭示了新的收敛条件和应用潜力。 本研究探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,并提出了一种新的框架。该框架在单一和双时间尺度情况下证明了全局收敛性,并在目标函数采用有限和形式时也具有收敛性质。实验证明了该框架的高效性。 收敛性质 框架 神经网络 随机梯度下降 高效性