ADOPT: An Improved Adam Algorithm That Converges to Any $β_2$ at Optimal Rate
原文英文,约100词,阅读约需1分钟。发表于: 。本研究解决了Adam优化算法在选择超参数$\beta_2$时的非收敛问题,提出了一种名为ADOPT的新自适应梯度方法。ADOPT在不依赖于梯度噪声有界假设的情况下,以最优的收敛速率$\mathcal{O} ( 1 / \sqrt{T} )$实现收敛。通过大量实验验证,ADOPT在图像分类、生成建模、自然语言处理和深度强化学习等多种任务中表现优于Adam及其变种。
本研究提出了一种新自适应梯度方法ADOPT,解决了Adam优化算法在超参数选择上的非收敛问题。ADOPT在不依赖梯度噪声假设的情况下,以最优收敛速率实现收敛,实验结果表明其在多种任务中优于Adam及其变种。