小红花·文摘

QLLM提出了一种低精度模型量化方法，通过自适应通道重组技术在LLaMA-2上提高了7.89%的准确率。研究涵盖多种量化框架和方法，如Outlier Suppression+和SmoothQuant，旨在减少内存开销并提高推理效率，尤其是在小批量推断设置下。新方法在4位权重量化中实现了无损准确度，显著提升了模型性能和经济性。