BriefGPT - AI 论文速递 ·

QTIP: 用格点化和不相关处理的量子化

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

本研究提出了QuIP#和GPTVQ等新方法，显著改善了大型语言模型的量化效果。通过创新技术实现低精度量化，提升了模型的准确性和处理效率，尤其在LLaMA-2上提高了7.89%的准确率。此外，研究探讨了后训练量化的多种方法，提出了SmoothQuant+和APTQ等新技术，优化了模型性能和内存使用。

🎯

❓

QuIP#方法通过随机哈达玛变换和球形亚高斯分布改进量化效果，并利用微调提高模型保真度。

GPTVQ方法通过交错使用量化和未量化权重更新，结合Hessian信息，建立了新的大小与准确性权衡状态。

QLLM在LLaMA-2上实现了相较于之前最先进的方法提高了7.89%的平均准确率。

SmoothQuant+方法能够无损减小大语言模型的内存开销，并在精确度上没有损失，提升了吞吐量。

APTQ方法利用Hessian迹作为灵敏度指标，在保持模型性能的前提下实现精度降低。

后训练量化（PTQ）通过细粒度量化和优化的舍入过程，显著减少权重和Hessian矩阵的量化误差。

🏷️