本文提出了一种名为ROOT-SGD的递归平均方法,基于过去的随机梯度,显著提升了随机梯度下降(SGD)的收敛速度。在FashionMNIST和CIFAR10数据集上的实验结果显示,准确率分别提高了0.5%和1.4%。研究还探讨了自适应步长和方差缩减技术在深度学习中的应用,证明其在处理噪声和非凸问题时的有效性。
完成下面两步后,将自动完成登录并继续当前操作。