本文探讨了传统梯度裁剪在重尾梯度噪声下的不足,尤其是对裁剪阈值的依赖性。提出了归一化随机梯度下降(NSGD),并证明其在样本复杂度和高概率收敛性上更具优势,为改进算法提供了新思路。
完成下面两步后,将自动完成登录并继续当前操作。