用于凸优化的 Shuffling Momentum Gradient 算法
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
该论文通过对两种随机动量法的收敛性分析,提出了一种统一框架,展示了它们与随机梯度法之间的相似性和差异性,并在深度学习中解释了连续变化现象。实验结果表明,随机版 Nesterov 加速梯度法在训练误差收敛速度和测试误差收敛鲁棒性方面取得了很好的平衡。
🎯
关键要点
- 该论文分析了随机动量法在非凸优化中的收敛性不足。
- 研究了两种随机动量法:随机重球法和随机版 Nesterov 加速梯度法。
- 提出了一种统一框架,展示了随机动量法与随机梯度法的相似性和差异性。
- 在深度学习中解释了测试误差收敛行为的连续变化现象。
- 实验结果表明,随机版 Nesterov 加速梯度法在训练误差收敛速度和测试误差收敛鲁棒性方面表现良好。
➡️