BAdam: 大型语言模型的内存高效全参数训练方法

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究提出了一种名为BAdam的优化器,通过链式规则属性减少了后向过程的运行时间,适用于大型语言模型的完全参数微调。实验结果表明,BAdam在收敛行为方面优于LoRA和LOMO,并在下游性能评估中表现更好。与Adam相比,BAdam在SuperGLUE基准测试中对RoBERTa-large的微调能够缩小性能差距。

🎯

关键要点

  • 该研究提出了一种名为BAdam的优化器。
  • BAdam利用Adam作为内部求解器,采用块坐标优化框架。
  • BAdam提供了一种内存高效的方法,用于大型语言模型的完全参数微调。
  • 通过链式规则属性,BAdam减少了后向过程的运行时间。
  • 实验结果显示,BAdam在收敛行为上优于LoRA和LOMO。
  • 经过指导调整的模型在MT-bench的下游性能评估中,BAдам略优于LoRA,并在LOMO方面表现更好。
  • BAdam在SuperGLUE基准测试中对RoBERTa-large的微调缩小了与Adam之间的性能差距。
➡️

继续阅读