自适应 Polyak 步长和线性搜索的 SGD 算法:稳健收敛和方差降低
原文中文,约700字,阅读约需2分钟。发表于: 。该研究提出了两种新的变体的随机 Polyak 步长和随机线性搜索算法,名为 AdaSPS 和 AdaSLS,它们保证了在非插值设置下的收敛,并在训练超参数化模型时维持凸函数和强凸函数的次线性和线性收敛速度。此外,通过引入方差缩减技术,这些算法能够在次优情况下进行梯度评估,达到 O(ε)次优性,从而改进了非插值区域 AdaSPS 和 AdaSLS 的较慢...
本文介绍了对SGD的变体和自适应步长的开发,重点解决有限项求和问题。详细介绍了自适应方法SPS+,展示了其在Lipschitz非平滑中实现的最优收敛速率。开发了逐渐学习最优情况下损失值的FUVAL的变体,并从三个视角介绍了FUVAL的特点。提出了FUVAL的收敛性分析和实验结果。缺点是收敛性分析没有比SGD更具优势,目前只有全批次版本在步长敏感性方面相对于GD有轻微优势,随机版本相对于SGD没有明显优势。猜测需要较大的小批量数据才能使FUVAL具有竞争力。目前,新的FUVAL方法没有提供清晰的理论或实践优势,但选择将这个草稿在线上提供。