💡
原文中文,约6200字,阅读约需15分钟。
📝
内容提要
研究团队提出了一种新的优化器Adam-mini,通过减少学习率的数量来降低内存使用,并在预训练任务中取得了优秀的性能。Adam-mini在内存占用和吞吐量方面优于AdamW,对超参数不敏感。在监督式微调和强化学习任务中,Adam-mini表现更好。
🎯
关键要点
- 研究团队提出了一种新的优化器Adam-mini,通过减少学习率的数量来降低内存使用。
- Adam-mini在预训练任务中表现优秀,内存占用和吞吐量优于AdamW。
- Adam的内存消耗高,训练大型语言模型时成为主要负担。
- 希望设计出内存需求更少且有效的优化器,以降低训练成本和门槛。
- 修改Adam而不影响性能的难度大,尚不清楚哪些组件是必需的。
- Adafactor尝试降低内存使用,但在训练LLM时性能不佳。
- 研究团队发现可以通过简单技巧降低v的使用量,提出Adam-mini。
- Adam-mini通过为每个参数块分配单个学习率,显著减少学习率数量。
- 实验表明,Adam-mini在预训练Llama2-7B时内存占用大幅降低,速度提升33%。
- Adam-mini的设计基于Transformer的Hessian结构,优化学习率分配。
- Adam-mini的分片策略根据Hessian结构切分参数块,提升训练稳定性和性能。
- Adam-mini可为Transformer减少学习率数量,内存节省可达45%到50%。
- Adam-mini在硬件资源有限时可取得更高的吞吐量,减少预训练总时间。
- 实验结果显示,Adam-mini在多种开源LLM上表现优于其他内存高效型方法。
- Adam-mini对超参数不敏感,在监督式微调和强化学习任务中表现更好。
➡️