通过信息保留实现 LLMs 的精确 LoRA 微调量化

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本文介绍了一种内存高效的预训练语言模型适应方法,通过矩阵分解和量化部分的更新实现。实验结果表明,该方法在适应不同模型时优于其他基准方法,并能实现更激进的量化。

🎯

关键要点

  • 提出了一种内存高效的预训练语言模型适应方法。
  • 使用迭代算法将预训练矩阵分解为高精度低秩部分和量化部分。
  • 在微调过程中,量化部分保持固定,只有低秩部分被更新。
  • 量化部分的整数线性规划形式可动态配置量化参数。
  • 探索了数据感知版本的算法,使用Fisher信息矩阵近似加权重构目标。
  • 在RoBERTa和LLaMA-2的实验中,LQ-LoRA优于QLoRA和GPTQ-LoRA基准。
  • LQ-LoRA在OpenAssistant基准测试中能够学习2.5位的LLaMA-2模型。
  • LQ-LoRA可用于模型压缩,2.75位的LLaMA-2-70B模型与全精度原始模型竞争。
➡️

继续阅读