带预处理的 Polyak 步长的随机梯度下降

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

该文介绍了一种基于自适应步长的 SGD 变体 $ exttt {SPS}_+$,并展示了其在 Lipschitz 非平滑中实现了已知的最优收敛速率。同时,该文还提出了 $ exttt {FUVAL}$ 的变体,逐渐学习最优情况下的损失值,并以三个视角介绍了其作为一种基于投影的方法、近似线性方法的变体以及特定的在线 SGD 方法。然而,该方法的收敛性分析没有比 SGD 更具优势,且目前只有全批次版本在步长敏感性方面相对于 GD 有轻微优势,随机版本相对于 SGD 没有明显优势。作者猜测需要较大的小批量数据才能使该方法具有竞争力。

🎯

关键要点

  • 该文介绍了一种基于自适应步长的 SGD 变体 $ exttt {SPS}_+$。
  • $ exttt {SPS}_+$ 在 Lipschitz 非平滑中实现了已知的最优收敛速率。
  • 提出了 $ exttt {FUVAL}$ 的变体,逐渐学习最优情况下的损失值。
  • $ exttt {FUVAL}$ 被介绍为基于投影的方法、近似线性方法的变体和特定的在线 SGD 方法。
  • $ exttt {FUVAL}$ 的收敛性分析没有比 SGD 更具优势。
  • 目前只有 $ exttt {FUVAL}$ 的全批次版本在步长敏感性方面相对于 GD 有轻微优势。
  • 随机版本相对于 SGD 没有明显优势。
  • 作者猜测需要较大的小批量数据才能使 $ exttt {FUVAL}$ 具有竞争力。
  • 新 $ exttt {FUVAL}$ 方法没有提供清晰的理论或实践优势,但包含了一些有趣的分析技巧。
➡️

继续阅读