小红花·文摘

该文介绍了一种量化感知的低秩自适应算法，用于将大型语言模型权重量化以减少时间和内存使用，并将 LLM 和辅助权重自然地集成到一个量化模型中，而不损失准确性。作者应用该算法于 LLaMA 和 LLaMA2 模型系列，并在不同的微调数据集和下游场景中验证了其有效性。