NOLA:网络作为低秩随机基组合的线性组合
原文中文,约400字,阅读约需1分钟。发表于: 。通过重新参数化使用线性组合随机生成的矩阵(基)的低秩矩阵,并仅优化线性混合系数,NOLA 将创新地克服了 LoRA 中的秩一下界,与等效参数计数的模型相比,NOLA 在自然语言处理和计算机视觉任务中表现得很好,并且证明能在更大的模型中减少一半的参数而不降低性能。
Delta-LoRA是一种新颖的参数高效的方法,用于微调大型语言模型。它通过更新低秩矩阵A和B,并利用两个低秩矩阵的乘积的增量将学习传播到预训练权重W,从而有效地解决了低秩矩阵的增量更新对于学习适用于下游任务的表示的不足。Delta-LoRA与LoRA具有相当的内存需求和计算成本,大量实验表明Delta-LoRA明显优于现有的低秩适应方法。