新的随机梯度下降的对数步长

原文中文,约400字,阅读约需1分钟。发表于:

本文提出了一种利用新的对数步长的随机梯度下降(SGD)方法的新型热重启技术,对于平滑和非凸函数,我们建立了 SGD 的 O(1/√T)收敛速度。我们对 FashionMinst,CIFAR10 和 CIFAR100 数据集进行了全面的实现,证明了新提出的步长的高效性。此外,我们将结果与其他九种现有方法进行了比较,并证明在使用卷积神经网络(CNN)模型时,新的对数步长将 CIFAR100...

该论文提出了一种新的方法,通过引入基于 1/√t 的修改衰减步长来提高随机梯度下降算法的性能。实验结果显示,相比传统的 1/√t 步长,准确率明显提高,分别观察到 0.5% 和 1.4% 的增益。

相关推荐 去reddit讨论