动量优化器在机器学习中非常重要,通常依赖于梯度的指数移动平均(EMA)。本文质疑单一EMA的有效性,提出了AdEMAMix,通过混合两个EMA更有效地利用历史梯度。实验结果表明,梯度在数万步内仍然相关,能够加速收敛、降低损失,并显著减缓模型遗忘。
本研究探讨了调度自由优化器与加速SGD变体的理论联系,发现AdEMAMix在语言建模任务中表现优异,并提出了在不同批量设置下仍能保持良好性能的简化版本。
本文介绍了一种新的AdamL优化算法,通过考虑损失函数信息以获得更好的泛化结果。实验证明,AdamL在深度学习任务中表现出卓越的性能,特别是在训练卷积神经网络、生成对抗网络和长短时记忆网络方面。与其他Adam的变体相比,AdamL通常实现了更快的收敛速度或更低的目标函数值。
完成下面两步后,将自动完成登录并继续当前操作。