小红花·文摘

该文介绍了一种通用的方法来提高基于梯度的优化算法的收敛速度，通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上，有效减少了对这些算法的初始学习率进行手动调整的需求。