BAdam: 大型语言模型的内存高效全参数训练方法
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究提出了一种名为BAdam的优化器,通过链式规则属性减少了后向过程的运行时间,适用于大型语言模型的完全参数微调。实验结果表明,BAdam在收敛行为方面优于LoRA和LOMO,并在下游性能评估中表现更好。与Adam相比,BAdam在SuperGLUE基准测试中对RoBERTa-large的微调能够缩小性能差距。
🎯
关键要点
- 该研究提出了一种名为BAdam的优化器。
- BAdam利用Adam作为内部求解器,采用块坐标优化框架。
- BAdam提供了一种内存高效的方法,用于大型语言模型的完全参数微调。
- 通过链式规则属性,BAdam减少了后向过程的运行时间。
- 实验结果显示,BAdam在收敛行为上优于LoRA和LOMO。
- 经过指导调整的模型在MT-bench的下游性能评估中,BAдам略优于LoRA,并在LOMO方面表现更好。
- BAdam在SuperGLUE基准测试中对RoBERTa-large的微调缩小了与Adam之间的性能差距。
➡️