该论文通过对两种随机动量法的收敛性分析,提出了一种统一框架,展示了它们与随机梯度法之间的相似性和差异性,并在深度学习中解释了连续变化现象。实验结果表明,随机版 Nesterov 加速梯度法在训练误差收敛速度和测试误差收敛鲁棒性方面取得了很好的平衡。
完成下面两步后,将自动完成登录并继续当前操作。