MLSys’25 | 极低内存消耗:用SGD的内存成本实现AdamW的优化性能

MLSys’25 | 极低内存消耗:用SGD的内存成本实现AdamW的优化性能

💡 原文中文,约3600字,阅读约需9分钟。
📝

内容提要

AIxiv专栏促进学术交流,报道超过2000篇内容。UT Austin与Meta AI联合推出APOLLO训练策略,显著降低大语言模型的内存需求并提升性能,为资源有限的研究者提供高效训练的新方案。

🎯

关键要点

  • AIxiv专栏促进学术交流,报道超过2000篇内容。

  • UT Austin与Meta AI联合推出APOLLO训练策略,显著降低大语言模型的内存需求。

  • APOLLO首次以类SGD内存成本完成大模型训练,保持AdamW的优化性能。

  • APOLLO在Hugging Face Transformers等开源项目中落地,便于研究者使用。

  • APOLLO实现3倍预训练加速,突破规模限制,支持在消费级GPU上训练大模型。

  • APOLLO通过结构化更新优化学习率,显著降低内存开销。

  • APOLLO-Mini进一步压缩优化器状态至SGD内存消耗,性能超越AdamW。

  • APOLLO在C4数据集上预训练LLaMA模型,显著降低内存需求并提高性能。

  • APOLLO支持更高的批量大小,实现训练加速,适用于资源受限环境。

  • APOLLO为资源有限的研究者提供高效训练大模型的新方案。

延伸问答

APOLLO训练策略的主要优势是什么?

APOLLO训练策略显著降低了大语言模型的内存需求,同时保持了AdamW的优化性能,实现了3倍的预训练加速。

APOLLO如何实现低内存消耗的训练?

APOLLO通过结构化更新优化学习率,首次以类SGD内存成本完成大模型训练,显著降低内存开销。

APOLLO在硬件资源受限的情况下表现如何?

APOLLO支持更高的批量大小,能够在12GB内存的消费级GPU上成功预训练LLaMA 7B模型。

APOLLO与传统的Adam优化器相比有什么不同?

APOLLO无需昂贵的SVD计算,采用轻量级随机投影方法,内存占用显著减少,同时优化速度超越Adam。

APOLLO-Mini的特点是什么?

APOLLO-Mini通过仅使用rank-1的辅助子空间进行张量级梯度缩放,实现了SGD内存消耗,同时性能超越AdamW。

APOLLO在C4数据集上的实验结果如何?

在C4数据集上,APOLLO系列方法显著降低内存需求,并且在训练性能上超过了Adam及当前SOTA方法。

➡️

继续阅读