该研究提出了一种名为BAdam的优化器,通过链式规则属性减少了后向过程的运行时间,适用于大型语言模型的完全参数微调。实验结果表明,BAdam在收敛行为方面优于LoRA和LOMO,并在下游性能评估中表现更好。与Adam相比,BAdam在SuperGLUE基准测试中对RoBERTa-large的微调能够缩小性能差距。
完成下面两步后,将自动完成登录并继续当前操作。