APOLLO:类似SGD的内存,媲美AdamW的性能
📝
内容提要
本研究针对大语言模型在训练过程中对内存的高需求,提出了一种新的优化方法APOLLO。通过近似的学习率缩放规则,该方法显著减少了内存开销,同时在预训练性能上优于AdamW,展示出对资源有限的GPU环境的友好性和更高的训练吞吐量。
🏷️
标签
➡️