机器之心 ·

MLSys’25 | 极低内存消耗：用SGD的内存成本实现AdamW的优化性能

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

AIxiv专栏促进学术交流，报道超过2000篇内容。UT Austin与Meta AI联合推出APOLLO训练策略，显著降低大语言模型的内存需求并提升性能，为资源有限的研究者提供高效训练的新方案。

🎯

🔎

APOLLO训练策略的推出，标志着大语言模型训练的一个重要突破。通过以类SGD的内存成本实现AdamW的优化性能，APOLLO为资源有限的研究者提供了新的解决方案。这种创新不仅降低了内存需求，还提升了训练效率，推动了大模型在低资源环境下的应用。

与传统的Adam优化器相比，APOLLO在内存消耗和计算效率上具有显著优势。APOLLO通过结构化更新和低秩空间的使用，减少了对昂贵计算的依赖，使得在消费级GPU上训练大模型成为可能。这一特性使得APOLLO在实际应用中更具吸引力，尤其是在资源受限的环境中。

APOLLO的成功为未来的研究提供了新的思路，尤其是在优化器设计和大模型训练方面。研究者可以进一步探索如何在更低的内存消耗下实现更高的训练性能，同时考虑不同模型架构的适配性。这将为大规模AI模型的普及和应用奠定基础。

❓

APOLLO训练策略显著降低了大语言模型的内存需求，同时保持了AdamW的优化性能，实现了3倍的预训练加速。

APOLLO通过结构化更新优化学习率，首次以类SGD内存成本完成大模型训练，显著降低内存开销。

APOLLO支持更高的批量大小，能够在12GB内存的消费级GPU上成功预训练LLaMA 7B模型。

APOLLO无需昂贵的SVD计算，采用轻量级随机投影方法，内存占用显著减少，同时优化速度超越Adam。

APOLLO-Mini通过仅使用rank-1的辅助子空间进行张量级梯度缩放，实现了SGD内存消耗，同时性能超越AdamW。

在C4数据集上，APOLLO系列方法显著降低内存需求，并且在训练性能上超过了Adam及当前SOTA方法。

🏷️