小红花·文摘

本研究提出了一种新型后训练量化方法W4A8，结合4位权重量化和8位矩阵计算加速，提升大型语言模型的推理速度和准确性。通过块量化技术，实现几乎无损的6位量化，内存密度提高5倍。此外，研究介绍了激活引导量化框架Agile-Quant，优化边缘设备的推理速度，并提出了bitnet.cpp软件栈，显著提升1位大型语言模型的推理效率。