从梯度裁剪到归一化的重尾随机梯度下降

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文探讨了传统梯度裁剪在重尾梯度噪声下的不足,尤其是对裁剪阈值的依赖性。提出了归一化随机梯度下降(NSGD),并证明其在样本复杂度和高概率收敛性上更具优势,为改进算法提供了新思路。

🎯

关键要点

  • 本文探讨了传统梯度裁剪在重尾梯度噪声下的不足。
  • 传统梯度裁剪方法对裁剪阈值的依赖性是一个主要问题。
  • 提出了归一化随机梯度下降(NSGD)作为解决方案。
  • NSGD在样本复杂度和高概率收敛性上表现更优。
  • NSGD为改进现有算法提供了新思路。
➡️

继续阅读