小红花·文摘

本文提出了一种增量量化方法，通过细调的大语言模型进行分解和压缩，以保持模型性能。研究表明，混合精度量化技术（如W4A8量化）显著提高计算效率，减少内存占用，且性能损失低于1%。此外，提出的可学习压缩量化方法（LCQ）有效控制权重和激活的压缩级别，优于传统方法，保持高准确度。