动量优化器在机器学习中非常重要,通常依赖于梯度的指数移动平均(EMA)。本文质疑单一EMA的有效性,提出了AdEMAMix,通过混合两个EMA更有效地利用历史梯度。实验结果表明,梯度在数万步内仍然相关,能够加速收敛、降低损失,并显著减缓模型遗忘。
本研究探讨了调度自由优化器与加速SGD变体的理论联系,发现AdEMAMix在语言建模任务中表现优异,并提出了在不同批量设置下仍能保持良好性能的简化版本。
本文探讨了多种优化算法的改进,包括AdaX、Sophia、Admeta、AdamL和MADA等。研究表明,AdaX通过积累过去梯度信息提高收敛性,AdamL在深度学习任务中表现优异,MADA能够动态选择最合适的优化器。这些新算法在性能和收敛速度上普遍优于传统的Adam算法。
完成下面两步后,将自动完成登录并继续当前操作。