土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】31｜微调演进：从全参数到 LoRA

💡 原文中文，约23700字，阅读约需57分钟。

📝

内容提要

LoRA（低秩适应）是一种高效的微调方法，通过低秩分解减少大模型微调时的参数量和存储需求，仅更新少量参数，接近全参数微调效果。QLoRA 通过量化技术进一步提升了在单卡上微调大模型的能力。LoRA 在指令微调和风格迁移等任务中表现优异，但在需要大量新知识的场景中可能不如全参数微调。

🎯

🔎

LoRA（低秩适应）在微调过程中通过低秩分解显著减少了参数量，适合指令微调和风格迁移等任务。然而，在需要注入大量新知识的场景中，LoRA的表现可能不如全参数微调。因此，选择微调方法时需考虑具体任务的需求。

QLoRA通过将基础模型量化为4-bit，显著降低了显存需求，使得在单卡上微调65B模型成为可能。这一技术突破使得大规模模型的微调变得更加可行，尤其是在资源有限的情况下。

DoRA（方向与幅值分离）是对LoRA的进一步优化，通过分别拟合权重的幅值和方向，提升了在复杂任务上的表现。虽然在LoRA已经足够的场景中收益有限，但在需要更大改动的任务中，DoRA可能会提供更好的效果。

❓

LoRA（低秩适应）是一种高效的微调方法，通过低秩分解减少大模型微调时的参数量和存储需求，主要优点是只更新少量参数，接近全参数微调效果。

QLoRA通过将基础模型量化为4-bit，显著降低了显存需求，使得在单张显卡上微调65B模型成为可能。

LoRA在指令微调和风格迁移等任务中表现优异，但在需要大量新知识的场景中可能不如全参数微调。

LoRA在注入大量新知识和复杂能力学习时效果较差，通常在这些场景中不如全参数微调。

DoRA（方向与幅值分离）是LoRA的改进，分别拟合权重的幅值和方向，提升了在复杂任务上的表现。

LoRA的核心思想是微调过程中权重的变化是低秩的，允许在低秩空间内进行训练。

🏷️