BAdam: 大型语言模型的内存高效全参数训练方法
原文中文,约400字,阅读约需1分钟。发表于: 。该研究提出了 BAdam,一种利用 Adam 作为内部求解器的块坐标优化框架的优化器。BAdam 提供了一种内存高效的方法,用于对大型语言模型进行完全参数微调,通过链式规则属性减少了后向过程的运行时间。实验结果表明,BAdam 在比较 LoRA 和 LOMO 时表现出优越的收敛行为。此外,我们通过对 MT-bench 的下游性能评估来评估经过指导调整的模型,结果表明 BAdam 略优于...
该研究提出了一种名为BAdam的优化器,通过链式规则属性减少了后向过程的运行时间,适用于大型语言模型的完全参数微调。实验结果表明,BAdam在收敛行为方面优于LoRA和LOMO,并在下游性能评估中表现更好。与Adam相比,BAdam在SuperGLUE基准测试中对RoBERTa-large的微调能够缩小性能差距。