新的随机梯度下降的对数步长

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该论文提出了一种新的方法,通过引入基于 1/√t 的修改衰减步长来提高随机梯度下降算法的性能。实验结果显示,相比传统的 1/√t 步长,准确率明显提高,分别观察到 0.5% 和 1.4% 的增益。

🎯

关键要点

  • 该论文提出了一种新颖的方法,通过引入基于 1/√t 的修改衰减步长来提高随机梯度下降算法的性能。

  • 所提出的步长整合了对数项,在最后的迭代中选择较小的值。

  • 在非凸光滑函数无 Polyak-Lojasiewicz 条件的情况下,建立了收敛速度为 O (ln T/√T)。

  • 在 FashionMNIST 和 CIFAR10 数据集上进行的实验显示,准确率相比传统的 1/√t 步长提高了 0.5% 和 1.4%。

  • 源代码可以在 https://github.com/Shamaeem/LNSQRTStepSize 找到。

➡️

继续阅读