小红花·文摘

ModuLoRA是一种内存高效的大型语言模型微调算法，支持在只有一个48GB的GPU上以3位或4位精度对具有65B参数的语言模型进行微调。该算法通过将任何用户指定的权重量化器与低秩适配器(LoRAs)结合使用，适应动态生成来自自定义黑盒量化模块的低精度语言模型权重。在实验中，ModuLoRA在文本分类、自然语言推理和指令跟随任务上获得了有竞争力的性能，并且在使用比现有方法更少的内存的同时，超过了流行的摘要任务的最新ROUGE分数。同时，该文还发布了一系列低精度模型，包括第一个3位指令跟随型Alpaca LLMs系列，作为LLMTOOLS的一部分。