LaMDA:通过频谱分解的低维度调整进行大模型微调

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本文介绍了一种内存高效的预训练语言模型适应方法,通过分解预训练矩阵并只更新低秩部分,实现了对模型的适应。该方法还提出了量化部分的整数线性规划形式,可以动态配置量化参数。实验结果表明,该方法优于其他基准方法,并能实现更激进的量化。

🎯

关键要点

  • 提出了一种内存高效的预训练语言模型适应方法。
  • 该方法通过分解预训练矩阵,更新低秩部分,保持量化部分固定。
  • 量化部分采用整数线性规划形式,动态配置量化参数。
  • 探索了数据感知版本的算法,使用Fisher信息矩阵加权矩阵分解。
  • 在RoBERTa和LLaMA-2的实验中,LQ-LoRA方法优于QLoRA和GPTQ-LoRA基准。
  • LQ-LoRA在OpenAssistant基准测试中表现出色,能够学习2.5位的LLaMA-2模型。
  • LQ-LoRA还可用于模型压缩,2.75位的LLaMA-2-70B模型与全精度原始模型竞争。
➡️

继续阅读