Q-GaLore: 基于 INT4 投影和层自适应低秩梯度的量化 GaLore

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本文介绍了一种内存高效的预训练语言模型适应方法,通过矩阵分解和量化部分的更新,实现了对预训练模型的适应。实验结果表明,该方法优于其他基准方法,并能实现更激进的量化。

🎯

关键要点

  • 提出了一种内存高效的预训练语言模型适应方法。

  • 使用迭代算法将预训练矩阵分解为高精度低秩部分和量化部分。

  • 在微调过程中,量化部分保持固定,只有低秩部分被更新。

  • 量化部分的整数线性规划形式可以动态配置量化参数。

  • 探索了数据感知版本的算法,使用Fisher信息矩阵的近似加权重构目标。

  • 在RoBERTa和LLaMA-2的实验中,LQ-LoRA优于QLoRA和GPTQ-LoRA基准。

  • LQ-LoRA能够学习一个2.5位的LLaMA-2模型,与4位QLoRA微调的模型竞争。

  • 在语言建模校准数据集上微调时,LQ-LoRA可用于模型压缩。

  • 2.75位的LLaMA-2-70B模型与原始模型在全精度上竞争,需27GB的GPU内存。

➡️

继续阅读