VeRA:基于向量的随机矩阵适应
原文中文,约400字,阅读约需1分钟。发表于: 。使用单一配对低秩矩阵并学习小的缩放向量,将低秩适应 (LoRA) 方法的可训练参数减少至原有的十分之一,且保持相同性能,用于缓解大型语言模型训练过程中的存储挑战。
Delta-LoRA是一种新颖的参数高效的方法,用于微调大型语言模型。它通过更新低秩矩阵A和B,并利用两个低秩矩阵的乘积的增量将学习传播到预训练权重W,有效地解决了低秩矩阵的增量更新对于学习适用于下游任务的表示的不足。Delta-LoRA与LoRA具有相当的内存需求和计算成本,大量实验表明Delta-LoRA明显优于现有的低秩适应方法。