AdEMAMix优化器:更好,更快,更老
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对传统动量优化器中单一指数移动平均(EMA)在处理旧梯度时的不足之处,提出了AdEMAMix优化器,通过混合两种EMA以更好地利用历史梯度。实验结果表明,旧梯度在数万步内仍然具有相关性,能够加速收敛并达到更低的损失,为优化器设计提供了新的研究方向。
本文介绍了一种新的AdamL优化算法,通过考虑损失函数信息以获得更好的泛化结果。实验证明,AdamL在深度学习任务中表现出卓越的性能,特别是在训练卷积神经网络、生成对抗网络和长短时记忆网络方面。与其他Adam的变体相比,AdamL通常实现了更快的收敛速度或更低的目标函数值。