带预处理的 Polyak 步长的随机梯度下降
原文中文,约700字,阅读约需2分钟。发表于: 。扩展了 Stochastic Gradient Descent with Polyak Step-size (SPS) 方法,使用 Hutchinson's 方法、Adam 和 AdaGrad 等预处理技术来提高其在糟糕缩放和 / 或病态数据集上的性能。
该文介绍了一种基于自适应步长的 SGD 变体 $ exttt {SPS}_+$,并展示了其在 Lipschitz 非平滑中实现了已知的最优收敛速率。同时,该文还提出了 $ exttt {FUVAL}$ 的变体,逐渐学习最优情况下的损失值,并以三个视角介绍了其作为一种基于投影的方法、近似线性方法的变体以及特定的在线 SGD 方法。然而,该方法的收敛性分析没有比 SGD 更具优势,且目前只有全批次版本在步长敏感性方面相对于 GD 有轻微优势,随机版本相对于 SGD 没有明显优势。作者猜测需要较大的小批量数据才能使该方法具有竞争力。