通过最佳平衡实现精确高效的量化大语言模型微调
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
本文介绍了一种内存高效的预训练语言模型适应方法,通过分解预训练矩阵并只更新低秩部分,实现了对模型的适应。该方法还提出了量化部分的整数线性规划形式,可以动态配置量化参数。实验结果表明,该方法优于其他基准方法,并能实现更激进的量化。
🎯
关键要点
- 提出了一种内存高效的预训练语言模型适应方法。
- 方法通过分解预训练矩阵,更新低秩部分,保持量化部分固定。
- 量化部分采用整数线性规划形式,动态配置量化参数。
- 探索了数据感知版本的算法,使用Fisher信息矩阵近似加权矩阵分解。
- 在RoBERTa和LLaMA-2的实验中,LQ-LoRA优于QLoRA和GPTQ-LoRA基准。
- LQ-LoRA在OpenAssistant基准测试中能够学习2.5位的LLaMA-2模型。
- LQ-LoRA可用于模型压缩,2.75位的LLaMA-2-70B模型与全精度原始模型竞争。
➡️