自适应 Polyak 步长和线性搜索的 SGD 算法:稳健收敛和方差降低
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
本文介绍了对SGD的变体和自适应步长的开发,重点解决有限项求和问题。详细介绍了自适应方法SPS+,展示了其在Lipschitz非平滑中实现的最优收敛速率。开发了逐渐学习最优情况下损失值的FUVAL的变体,并从三个视角介绍了FUVAL的特点。提出了FUVAL的收敛性分析和实验结果。缺点是收敛性分析没有比SGD更具优势,目前只有全批次版本在步长敏感性方面相对于GD有轻微优势,随机版本相对于SGD没有明显优势。猜测需要较大的小批量数据才能使FUVAL具有竞争力。目前,新的FUVAL方法没有提供清晰的理论或实践优势,但选择将这个草稿在线上提供。
🎯
关键要点
- 开发了SGD的变体与自适应步长,解决有限项求和问题。
- 详细介绍了自适应方法SPS+,在Lipschitz非平滑中实现最优收敛速率。
- 开发了FUVAL的变体,逐渐学习最优情况下的损失值。
- 从三个视角介绍FUVAL:基于投影的方法、近似线性方法的变体、特定的在线SGD方法。
- FUVAL的收敛性分析和实验结果显示其没有比SGD更具优势。
- FUVAL的全批次版本在步长敏感性方面相对于GD有轻微优势,随机版本相对于SGD没有明显优势。
- 猜测需要较大的小批量数据才能使FUVAL具有竞争力。
- 新FUVAL方法未提供清晰的理论或实践优势,但选择在线上提供草稿。
➡️