大型语言模型的量化感知低阶适应算法
原文中文,约700字,阅读约需2分钟。发表于: 。目前关于 Mistral 的讨论很多,这是新的 QA-LoRA 论文,点击标题 - LoRA(低秩适配)非常棒,因为它只适配了基础 LLM 的一小部分低秩参数子集。 - QLoRA 非常棒,因为它通过量化基础模型权重进一步降低了内存需求。 - QA-LoRA 更棒,因为它在 QLoRA 的基础上更进一步,还量化了 LoRA(适配器)权重,避免了在添加适配器权重时将量化的基础模型权重转换回...
本文介绍了QA-LoRA算法,用于解决大型语言模型的计算负担问题。该算法使用分组算子量化LLM的权重,减少时间和内存的使用,并在微调后将LLM和辅助权重自然地集成到一个量化模型中,而不会损失精度。QA-LoRA已在不同的微调数据集和下游场景中验证了其有效性。