利用逐渐缩小的步长增强统计效率的随机优化:ROOT-SGD

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该论文提出了一种新的方法,通过引入基于1/√t的修改衰减步长来提高随机梯度下降(SGD)算法的性能。实验结果显示,与传统的1/√t步长相比,准确率明显提高,分别观察到0.5%和1.4%的增益。

🎯

关键要点

  • 该论文提出了一种新颖的方法,通过引入基于1/√t的修改衰减步长来提高SGD算法的性能。
  • 所提出的步长整合了对数项,在最后的迭代中选择较小的值。
  • 在非凸光滑函数无Polyak-Lojasiewicz条件的情况下,建立了收敛速度为O(ln T/√T)。
  • 在FashionMNIST和CIFAR10数据集上进行的实验显示,准确率相比传统的1/√t步长明显提高,分别观察到0.5%和1.4%的增益。
  • 源代码可以在https://github.com/Shamaeem/LNSQRTStepSize找到。
➡️

继续阅读