解密 SGD 非凸收敛的神话与传说
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文研究了随机梯度下降法(SGD)的最终迭代中的ε-稳定点及其密度,恢复了经典的O(1/√T)渐进速率,解决了与SGD的非凸收敛性相关的迷思和传说,并提出了研究方向。
🎯
关键要点
- 本文研究了随机梯度下降法(SGD)的最终迭代中的ε-稳定点及其密度。
- 当总迭代次数足够大时,SGD的最终迭代中存在一个ε-稳定点。
- 恢复了经典的O(1/√T)渐进速率。
- 解决了与SGD的非凸收敛性相关的迷思和传说。
- 提出了一些有启发性的研究方向。
🏷️
标签
➡️