LoRA、完全微调到底有何不同?MIT 21页论文讲明白了

LoRA、完全微调到底有何不同?MIT 21页论文讲明白了

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

本文比较了完全微调与低秩自适应(LoRA)在大型语言模型微调中的差异。研究表明,LoRA模型存在“侵入维度”,导致其在持续学习中表现不佳,遗忘更多预训练信息。尽管LoRA在特定任务上表现良好,但完全微调在泛化能力和适应性方面更强。

🎯

关键要点

  • 本文比较了完全微调与低秩自适应(LoRA)在大型语言模型微调中的差异。
  • LoRA模型存在“侵入维度”,导致其在持续学习中表现不佳,遗忘更多预训练信息。
  • 尽管LoRA在特定任务上表现良好,但完全微调在泛化能力和适应性方面更强。
  • 研究表明,完全微调与LoRA产生的权重矩阵奇异值分解结构有显著不同。
  • LoRA训练的权重矩阵中出现了称为“侵入维度”的新的高秩奇异向量,而完全微调中则没有。
  • 具有侵入维度的LoRA微调模型在适应任务分布之外的表现不如完全微调模型。
  • 低秩LoRA适合下游任务分布,但完全微调和高秩LoRA能提高模型的泛化能力。
  • 使用LoRA定制通用LLM会导致模型失去一些泛化能力,因为它们增加了侵入维度。
  • LoRA和完全微调在结构上产生不同的参数更新,影响模型的学习效果。
  • 在持续学习中,LoRA模型的适应能力较差,容易遗忘之前的任务。
  • 研究发现,LoRA的秩越高,遗忘行为越少,接近完全微调的效果。
➡️

继续阅读