BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

带预处理的 Polyak 步长的随机梯度下降

扩展了 Stochastic Gradient Descent with Polyak Step-size (SPS) 方法,使用 Hutchinson's 方法、Adam 和 AdaGrad 等预处理技术来提高其在糟糕缩放和 / 或病态数据集上的性能。

该文介绍了一种基于自适应步长的 SGD 变体 $ exttt {SPS}_+$,并展示了其在 Lipschitz 非平滑中实现了已知的最优收敛速率。同时,该文还提出了 $ exttt {FUVAL}$ 的变体,逐渐学习最优情况下的损失值,并以三个视角介绍了其作为一种基于投影的方法、近似线性方法的变体以及特定的在线 SGD 方法。然而,该方法的收敛性分析没有比 SGD 更具优势,且目前只有全批次版本在步长敏感性方面相对于 GD 有轻微优势,随机版本相对于 SGD 没有明显优势。作者猜测需要较大的小批量数据才能使该方法具有竞争力。

FUVAL Lipschitz 非平滑 SGD 收敛速率 自适应步长

相关推荐 去reddit讨论

热榜 Top10

Dify.AI
Dify.AI
观测云
观测云
eolink
eolink
LigaAI
LigaAI

推荐或自荐