新的随机梯度下降的对数步长
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该论文提出了一种新的方法,通过引入基于 1/√t 的修改衰减步长来提高随机梯度下降算法的性能。实验结果显示,相比传统的 1/√t 步长,准确率明显提高,分别观察到 0.5% 和 1.4% 的增益。
🎯
关键要点
-
该论文提出了一种新颖的方法,通过引入基于 1/√t 的修改衰减步长来提高随机梯度下降算法的性能。
-
所提出的步长整合了对数项,在最后的迭代中选择较小的值。
-
在非凸光滑函数无 Polyak-Lojasiewicz 条件的情况下,建立了收敛速度为 O (ln T/√T)。
-
在 FashionMNIST 和 CIFAR10 数据集上进行的实验显示,准确率相比传统的 1/√t 步长提高了 0.5% 和 1.4%。
-
源代码可以在 https://github.com/Shamaeem/LNSQRTStepSize 找到。
➡️