VPTQ:大规模语言模型的极低比特向量后训练量化
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究提出了GPTVQ方法,通过增加量化维度提升神经网络的大小和准确性。GPTVQ使用数据感知的EM算法和SVD压缩,对大型语言模型进行高效向量量化。在Llama-v2等模型上实现了新的大小与准确性平衡,并在单个H100上高效运行。研究还显示,VQ在移动CPU上的延迟表现优于4位整数格式。
🎯
关键要点
-
研究提出了GPTVQ方法,通过增加量化维度改善神经网络的大小和准确性。
-
GPTVQ是一种快速的训练后向量量化方法,适用于大型语言模型(LLMs)。
-
该方法交错使用每层输出重建MSE的Hessian信息,结合多列的量化和未量化权重更新。
-
使用数据感知的EM算法初始化码本,并通过整数量化和SVD压缩进行进一步压缩。
-
GPTVQ在Llama-v2和Mistral等模型上实现了新的大小与准确性平衡。
-
在单个H100上处理Llama-v2-70B模型的时间为3到11小时,具体取决于量化设置。
-
VQ在移动CPU上的延迟表现优于4位整数格式。
➡️