VPTQ:大规模语言模型的极低比特向量后训练量化
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了大规模语言模型(LLM)在部署和推断时面临的内存和带宽限制问题。我们提出了一种全新的向量后训练量化(VPTQ)方法,通过二阶优化改进量化算法,并提出有效的码本初始化算法,从而在达到极低比特量化的同时提高了模型准确性。实验结果表明,VPTQ在多个模型上显著降低了量化困惑度,并提高了推断吞吐量。
研究提出了GPTVQ方法,通过增加量化维度提升神经网络的大小和准确性。GPTVQ使用数据感知的EM算法和SVD压缩,对大型语言模型进行高效向量量化。在Llama-v2等模型上实现了新的大小与准确性平衡,并在单个H100上高效运行。研究还显示,VQ在移动CPU上的延迟表现优于4位整数格式。