小红花·文摘

本研究提出了Meta-Adaptive Optimizers（MADA），一个统一的优化器框架，能够动态学习最合适的优化器。MADA对亚优化的超参数具有鲁棒性，且在调优超参数的情况下通常优于Adam、Lion和Adan。同时，提出了AVGrad，在MADA中表现更好。收敛性分析显示，优化器的插值可以改善它们的误差界限，暗示了元优化器的优势。