研究提出了GPTVQ方法,通过增加量化维度提升神经网络的大小和准确性。GPTVQ使用数据感知的EM算法和SVD压缩,对大型语言模型进行高效向量量化。在Llama-v2等模型上实现了新的大小与准确性平衡,并在单个H100上高效运行。研究还显示,VQ在移动CPU上的延迟表现优于4位整数格式。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: