新的随机梯度下降的对数步长

本文提出了一种利用新的对数步长的随机梯度下降（SGD）方法的新型热重启技术，对于平滑和非凸函数，我们建立了 SGD 的 O（1/√T）收敛速度。我们对 FashionMinst，CIFAR10 和 CIFAR100 数据集进行了全面的实现，证明了新提出的步长的高效性。此外，我们将结果与其他九种现有方法进行了比较，并证明在使用卷积神经网络（CNN）模型时，新的对数步长将 CIFAR100...

该论文提出了一种新的方法，通过引入基于 1/√t 的修改衰减步长来提高随机梯度下降算法的性能。实验结果显示，相比传统的 1/√t 步长，准确率明显提高，分别观察到 0.5% 和 1.4% 的增益。

修改衰减步长准确率性能步长随机梯度下降