非光滑非凸优化中的随机放缩和动量
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,并提出了一种新的框架。该框架通过更新动量项和变量分配不同的时间尺度,证明了在单一和双时间尺度情况下的全局收敛性。实验证明了该框架的高效性。
🎯
关键要点
- 本研究探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质。
- 提出了一种新的框架,通过更新动量项和变量分配不同的时间尺度。
- 在温和条件下证明了框架在单一和双时间尺度情况下的全局收敛性。
- 框架包含了多种著名的 SGD 类型方法,如 heavy-ball SGD、SignSGD、Lion、normalized SGD 和 clipped SGD。
- 证明了这些 SGD 类型方法在有限和形式的目标函数下的收敛性质。
- 在温和假设条件下,证明了这些方法能够找到目标函数的 Clarke 稳定点。
- 初步数值实验表明了分析的 SGD 类型方法的高效性。
➡️