小红花·文摘

该研究提出了一种名为BAdam的优化器，通过链式规则属性减少了后向过程的运行时间，适用于大型语言模型的完全参数微调。实验结果表明，BAdam在收敛行为方面优于LoRA和LOMO，并在下游性能评估中表现更好。与Adam相比，BAdam在SuperGLUE基准测试中对RoBERTa-large的微调能够缩小性能差距。