本文提出了一种增量量化方法,通过细调的大语言模型进行分解和压缩,以保持模型性能。研究表明,混合精度量化技术(如W4A8量化)显著提高计算效率,减少内存占用,且性能损失低于1%。此外,提出的可学习压缩量化方法(LCQ)有效控制权重和激活的压缩级别,优于传统方法,保持高准确度。
完成下面两步后,将自动完成登录并继续当前操作。