带预处理的 Polyak 步长的随机梯度下降

扩展了 Stochastic Gradient Descent with Polyak Step-size (SPS) 方法，使用 Hutchinson's 方法、Adam 和 AdaGrad 等预处理技术来提高其在糟糕缩放和 / 或病态数据集上的性能。

该文介绍了一种基于自适应步长的 SGD 变体 $ exttt {SPS}_+$，并展示了其在 Lipschitz 非平滑中实现了已知的最优收敛速率。同时，该文还提出了 $ exttt {FUVAL}$ 的变体，逐渐学习最优情况下的损失值，并以三个视角介绍了其作为一种基于投影的方法、近似线性方法的变体以及特定的在线 SGD 方法。然而，该方法的收敛性分析没有比 SGD 更具优势，且目前只有全批次版本在步长敏感性方面相对于 GD 有轻微优势，随机版本相对于 SGD 没有明显优势。作者猜测需要较大的小批量数据才能使该方法具有竞争力。

FUVAL Lipschitz 非平滑 SGD 收敛速率自适应步长