ModuLoRA: 将 3 位 LLMs 在消费级 GPU 上进行微调与模块量化器集成

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

ModuLoRA是一种内存高效的大型语言模型微调算法,支持在只有一个48GB的GPU上以3位或4位精度对具有65B参数的语言模型进行微调。该算法通过将任何用户指定的权重量化器与低秩适配器(LoRAs)结合使用,适应动态生成来自自定义黑盒量化模块的低精度语言模型权重。在实验中,ModuLoRA在文本分类、自然语言推理和指令跟随任务上获得了有竞争力的性能,并且在使用比现有方法更少的内存的同时,超过了流行的摘要任务的最新ROUGE分数。同时,该文还发布了一系列低精度模型,包括第一个3位指令跟随型Alpaca LLMs系列,作为LLMTOOLS的一部分。

🎯

关键要点

  • ModuLoRA是一种内存高效的大型语言模型微调算法。
  • 该算法支持在48GB的GPU上以3位或4位精度对65B参数的语言模型进行微调。
  • ModuLoRA结合了用户指定的权重量化器与低秩适配器(LoRAs)。
  • 该算法通过量化无关后向传递适应低精度语言模型权重。
  • 在实验中,ModuLoRA在文本分类、自然语言推理和指令跟随任务上表现出竞争力。
  • ModuLoRA在使用更少内存的情况下超过了流行摘要任务的最新ROUGE分数。
  • 该文发布了一系列低精度模型,包括第一个3位指令跟随型Alpaca LLMs系列。
  • LLMTOOLS是一个用户友好的库,用于在消费级GPU上进行量化、运行和微调LLMs。
➡️

继续阅读