💡
原文中文,约2900字,阅读约需7分钟。
📝
内容提要
本文比较了完全微调与低秩自适应(LoRA)在大型语言模型微调中的差异。研究表明,LoRA模型存在“侵入维度”,导致其在持续学习中表现不佳,遗忘更多预训练信息。尽管LoRA在特定任务上表现良好,但完全微调在泛化能力和适应性方面更强。
🎯
关键要点
- 本文比较了完全微调与低秩自适应(LoRA)在大型语言模型微调中的差异。
- LoRA模型存在“侵入维度”,导致其在持续学习中表现不佳,遗忘更多预训练信息。
- 尽管LoRA在特定任务上表现良好,但完全微调在泛化能力和适应性方面更强。
- 研究表明,完全微调与LoRA产生的权重矩阵奇异值分解结构有显著不同。
- LoRA训练的权重矩阵中出现了称为“侵入维度”的新的高秩奇异向量,而完全微调中则没有。
- 具有侵入维度的LoRA微调模型在适应任务分布之外的表现不如完全微调模型。
- 低秩LoRA适合下游任务分布,但完全微调和高秩LoRA能提高模型的泛化能力。
- 使用LoRA定制通用LLM会导致模型失去一些泛化能力,因为它们增加了侵入维度。
- LoRA和完全微调在结构上产生不同的参数更新,影响模型的学习效果。
- 在持续学习中,LoRA模型的适应能力较差,容易遗忘之前的任务。
- 研究发现,LoRA的秩越高,遗忘行为越少,接近完全微调的效果。
➡️