本文研究了随机梯度下降法(SGD)的最终迭代中存在一个ε-稳定点,并提出了度量ε-稳定点密度的方法。同时,恢复了经典的O(1/√T)渐进速率,并解决了与SGD的非凸收敛性相关的迷思和传说。
完成下面两步后,将自动完成登录并继续当前操作。