Adam有了mini版:内存占用少一半,吞吐量提升50%

Adam有了mini版:内存占用少一半,吞吐量提升50%

💡 原文中文,约6200字,阅读约需15分钟。
📝

内容提要

研究团队提出了一种新的优化器Adam-mini,通过减少学习率的数量来降低内存使用,并在预训练任务中取得了优秀的性能。Adam-mini在内存占用和吞吐量方面优于AdamW,对超参数不敏感。在监督式微调和强化学习任务中,Adam-mini表现更好。

🎯

关键要点

  • 研究团队提出了一种新的优化器Adam-mini,通过减少学习率的数量来降低内存使用。
  • Adam-mini在预训练任务中表现优秀,内存占用和吞吐量优于AdamW。
  • Adam的内存消耗高,训练大型语言模型时成为主要负担。
  • 希望设计出内存需求更少且有效的优化器,以降低训练成本和门槛。
  • 修改Adam而不影响性能的难度大,尚不清楚哪些组件是必需的。
  • Adafactor尝试降低内存使用,但在训练LLM时性能不佳。
  • 研究团队发现可以通过简单技巧降低v的使用量,提出Adam-mini。
  • Adam-mini通过为每个参数块分配单个学习率,显著减少学习率数量。
  • 实验表明,Adam-mini在预训练Llama2-7B时内存占用大幅降低,速度提升33%。
  • Adam-mini的设计基于Transformer的Hessian结构,优化学习率分配。
  • Adam-mini的分片策略根据Hessian结构切分参数块,提升训练稳定性和性能。
  • Adam-mini可为Transformer减少学习率数量,内存节省可达45%到50%。
  • Adam-mini在硬件资源有限时可取得更高的吞吐量,减少预训练总时间。
  • 实验结果显示,Adam-mini在多种开源LLM上表现优于其他内存高效型方法。
  • Adam-mini对超参数不敏感,在监督式微调和强化学习任务中表现更好。
➡️

继续阅读