小红花·文摘

本文提出了多种量化感知算法（如QA-LoRA、B-LoRA、LQ-LoRA等），旨在优化大型语言模型的微调和存储效率。这些算法通过低秩矩阵分解和量化技术，显著减少内存使用，同时保持模型性能，提升模型的泛化能力和计算效率。