VPTQ：大规模语言模型的极低比特向量后训练量化

本研究解决了大规模语言模型（LLM）在部署和推断时面临的内存和带宽限制问题。我们提出了一种全新的向量后训练量化（VPTQ）方法，通过二阶优化改进量化算法，并提出有效的码本初始化算法，从而在达到极低比特量化的同时提高了模型准确性。实验结果表明，VPTQ在多个模型上显著降低了量化困惑度，并提高了推断吞吐量。

研究提出了GPTVQ方法，通过增加量化维度提升神经网络的大小和准确性。GPTVQ使用数据感知的EM算法和SVD压缩，对大型语言模型进行高效向量量化。在Llama-v2等模型上实现了新的大小与准确性平衡，并在单个H100上高效运行。研究还显示，VQ在移动CPU上的延迟表现优于4位整数格式。

EM算法 GPTVQ SVD压缩向量延迟表现语言模型量化维度