From Gradient Clipping to Normalization for Heavy-Tailed Stochastic Gradient Descent

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文探讨了重尾梯度噪声环境下传统梯度裁剪方法的局限性,提出了归一化随机梯度下降(NSGD),并证明了其在样本复杂度和高概率收敛性方面的优势。

🎯

关键要点

  • 传统梯度裁剪方法在重尾梯度噪声环境下存在局限性,特别是对裁剪阈值的依赖。

  • 归一化随机梯度下降(NSGD)被提出作为一种改进现有算法的替代机制。

  • NSGD在样本复杂度和高概率收敛性方面表现出优越性。

  • 许多机器学习应用涉及重尾梯度噪声,这挑战了随机优化中关于方差有界的标准假设。

➡️

继续阅读