利用逐渐缩小的步长增强统计效率的随机优化:ROOT-SGD
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该论文提出了一种新的方法,通过引入基于1/√t的修改衰减步长来提高随机梯度下降(SGD)算法的性能。实验结果显示,与传统的1/√t步长相比,准确率明显提高,分别观察到0.5%和1.4%的增益。
🎯
关键要点
- 该论文提出了一种新颖的方法,通过引入基于1/√t的修改衰减步长来提高SGD算法的性能。
- 所提出的步长整合了对数项,在最后的迭代中选择较小的值。
- 在非凸光滑函数无Polyak-Lojasiewicz条件的情况下,建立了收敛速度为O(ln T/√T)。
- 在FashionMNIST和CIFAR10数据集上进行的实验显示,准确率相比传统的1/√t步长明显提高,分别观察到0.5%和1.4%的增益。
- 源代码可以在https://github.com/Shamaeem/LNSQRTStepSize找到。
➡️