L4Q:大型语言模型的参数高效量化感知训练:基于 LoRA-wise LSQ

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本文介绍了一种内存高效适应预训练语言模型的方法,通过迭代算法将预训练矩阵分解为高精度低秩部分和内存高效的量化部分。在微调过程中,只更新低秩部分,量化部分保持固定。通过整数线性规划形式动态配置量化参数,实现在总体存储器预算下的量化。实验结果表明,该方法在适应不同模型时优于其他基准方法,并能实现更激进的量化。

🎯

关键要点

  • 提出了一种内存高效的预训练语言模型适应方法。
  • 使用迭代算法将预训练矩阵分解为高精度低秩部分和内存高效的量化部分。
  • 在微调过程中,量化部分保持固定,只有低秩部分被更新。
  • 提出了量化部分的整数线性规划形式,动态配置量化参数。
  • 探索了数据感知版本的算法,使用Fisher信息矩阵的近似加权矩阵分解过程。
  • 在RoBERTa和LLaMA-2的实验中,LQ-LoRA优于QLoRA和GPTQ-LoRA基准。
  • LQ-LoRA能够学习一个2.5位的LLaMA-2模型,与使用4位QLoRA微调的模型竞争。
  • 在语言建模校准数据集上微调时,LQ-LoRA可用于模型压缩,竞争全精度模型。
➡️

继续阅读