小红花·文摘

本文探讨了随机梯度下降（SGD）及其变种在神经网络训练中的收敛性质，提出了新的自适应步长方法和Dissipative GDA（DGDA）方法，以提高收敛速度和稳定性。这些方法在处理复杂问题时表现出良好的性能和收敛性。

基于平稳终端吸引子的动态解耦梯度下降算法

BriefGPT - AI 论文速递 ·

本研究通过非渐进性分析，探讨具有偏倚梯度和自适应步长的随机梯度下降算法。结果表明带偏倚梯度的 Adagrad 和 RMSProp 算法收敛速率与无偏情况下的结果相似，并展示了通过适当的超参数调整可以减少偏倚影响的能力。

该文介绍了一种基于自适应步长的 SGD 变体 $ exttt {SPS}_+$，并展示了其在 Lipschitz 非平滑中实现了已知的最优收敛速率。同时，该文还提出了 $ exttt {FUVAL}$ 的变体，逐渐学习最优情况下的损失值，并以三个视角介绍了其作为一种基于投影的方法、近似线性方法的变体以及特定的在线 SGD 方法。然而，该方法的收敛性分析没有比 SGD 更具优势，且目前只有全批次版本在步长敏感性方面相对于 GD 有轻微优势，随机版本相对于 SGD 没有明显优势。作者猜测需要较大的小批量数据才能使该方法具有竞争力。

带预处理的 Polyak 步长的随机梯度下降

BriefGPT - AI 论文速递 ·

本文介绍了对SGD的变体和自适应步长的开发，重点解决有限项求和问题。详细介绍了自适应方法SPS+，展示了其在Lipschitz非平滑中实现的最优收敛速率。开发了逐渐学习最优情况下损失值的FUVAL的变体，并从三个视角介绍了FUVAL的特点。提出了FUVAL的收敛性分析和实验结果。缺点是收敛性分析没有比SGD更具优势，目前只有全批次版本在步长敏感性方面相对于GD有轻微优势，随机版本相对于SGD没有明显优势。猜测需要较大的小批量数据才能使FUVAL具有竞争力。目前，新的FUVAL方法没有提供清晰的理论或实践优势，但选择将这个草稿在线上提供。

自适应 Polyak 步长和线性搜索的 SGD 算法：稳健收敛和方差降低

BriefGPT - AI 论文速递 ·

基于平稳终端吸引子的动态解耦梯度下降算法

偏见自适应随机逼近的非渐近分析

带预处理的 Polyak 步长的随机梯度下降

自适应 Polyak 步长和线性搜索的 SGD 算法：稳健收敛和方差降低