AdEMAMix优化器：更好，更快，更老

本研究针对传统动量优化器中单一指数移动平均（EMA）在处理旧梯度时的不足之处，提出了AdEMAMix优化器，通过混合两种EMA以更好地利用历史梯度。实验结果表明，旧梯度在数万步内仍然具有相关性，能够加速收敛并达到更低的损失，为优化器设计提供了新的研究方向。

本文介绍了一种新的AdamL优化算法，通过考虑损失函数信息以获得更好的泛化结果。实验证明，AdamL在深度学习任务中表现出卓越的性能，特别是在训练卷积神经网络、生成对抗网络和长短时记忆网络方面。与其他Adam的变体相比，AdamL通常实现了更快的收敛速度或更低的目标函数值。