Demystifying the Myths and Legends of Non-Convex Convergence in SGD
原文约100字/词,阅读约需1分钟。发表于: 。通过分析,本文展示了当总迭代次数足够大时,随机梯度下降法(SGD)的最终迭代中存在一个 ε- 稳定点,这是一个比现有结果更强的结论,并且可以在 SGD 的最终迭代中度量 ε- 稳定点的密度,同时对于目标函数和随机梯度的边界条件,我们恢复了经典的 O (1/√T) 渐进速率,此分析结果解决了与 SGD 的非凸收敛性相关的某些迷思和传说,并提出了一些有启发性的研究方向。
本文研究了随机梯度下降法(SGD)的最终迭代中的ε-稳定点及其密度,恢复了经典的O(1/√T)渐进速率,解决了与SGD的非凸收敛性相关的迷思和传说,并提出了研究方向。