从梯度裁剪到归一化的重尾随机梯度下降
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文探讨了传统梯度裁剪在重尾梯度噪声下的不足,尤其是对裁剪阈值的依赖性。提出了归一化随机梯度下降(NSGD),并证明其在样本复杂度和高概率收敛性上更具优势,为改进算法提供了新思路。
🎯
关键要点
- 本文探讨了传统梯度裁剪在重尾梯度噪声下的不足。
- 传统梯度裁剪方法对裁剪阈值的依赖性是一个主要问题。
- 提出了归一化随机梯度下降(NSGD)作为解决方案。
- NSGD在样本复杂度和高概率收敛性上表现更优。
- NSGD为改进现有算法提供了新思路。
➡️