Apple Machine Learning Research ·

CommVQ：用于KV缓存压缩的交换向量量化

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

大型语言模型在长上下文应用中面临GPU内存瓶颈，提出了交换向量量化（CommVQ）方法，通过轻量编码器和代码本压缩KV缓存，显著降低内存使用。该方法结合旋转位置嵌入和期望最大化算法，减少计算开销并保持高准确性。实验结果显示，2位量化下FP16 KV缓存大小减少87.5%，1位量化时准确性损失极小，使得在单个RTX 4090 GPU上运行LLaMA-3.1 8B模型成为可能。

🎯

关键要点

大型语言模型在长上下文应用中面临GPU内存瓶颈。
提出了交换向量量化（CommVQ）方法以显著降低内存使用。
通过轻量编码器和代码本压缩KV缓存，采用加法量化。
设计的代码本与旋转位置嵌入（RoPE）兼容，降低解码的计算开销。
使用期望最大化（EM）算法学习代码本，提升解码效率。
实验结果显示，2位量化下FP16 KV缓存大小减少87.5%，准确性高于现有方法。
1位量化时准确性损失极小，使得在单个RTX 4090 GPU上运行LLaMA-3.1 8B模型成为可能。

❓

延伸问答

什么是交换向量量化（CommVQ）？

交换向量量化（CommVQ）是一种通过轻量编码器和代码本压缩KV缓存的方法，旨在显著降低大型语言模型在长上下文应用中的内存使用。

CommVQ如何降低GPU内存使用？

CommVQ通过引入加法量化和轻量编码器，压缩KV缓存，并设计与旋转位置嵌入兼容的代码本，从而显著降低内存使用。

使用CommVQ的实验结果如何？

实验表明，使用2位量化时，FP16 KV缓存大小减少87.5%，且准确性高于现有方法，1位量化时准确性损失极小。

CommVQ在长上下文应用中有什么优势？

CommVQ能够在单个RTX 4090 GPU上运行LLaMA-3.1 8B模型，支持最大128K的上下文长度，且保持高准确性。

CommVQ是如何提高解码效率的？

CommVQ利用期望最大化算法学习代码本，并将其设计为与旋转位置嵌入兼容，从而提高解码效率并降低计算开销。

CommVQ的量化方法有什么特点？

CommVQ采用加法量化，支持2位和1位量化，其中1位量化时准确性损失极小，适合长上下文的推理任务。

🏷️

继续阅读

十年难题终获突破：揭秘 Go 1.27 接口逃逸分析优化
Go 1.27 通过优化接口逃逸分析，解决了开发者十年来的性能问题。新机制使编译器能够判断变量是否可以留在栈上，从而减少堆分配，提升高并发服务的性能。这一...
研究发现，近43%的重大AI项目预计将以失败告终
（全球TMT2026年5月22日讯）技术公司HCLTech发布其最新企业AI市场调研报告《The AI Imp […]
海信推出一款更易普及的RGB MiniLED电视系列UR8
（全球TMT2026年5月22日讯）海信5月22日推出UR8，这是一款更易普及的RGB MiniLED电视系列 […]
Microsoft is letting Office users remove an annoying Copilot button
Microsoft is rolling out Office app updates next week that allow users to dis...
Cloudflare Completes Its Agent Infrastructure Stack with Browser Run Rebuild and Six-Layer Platform
Cloudflare rebuilt Browser Run on its own Containers platform, delivering 4x ...
Presentation: AI Native Engineering
Ian Thomas shares a case study on embracing AI-native engineering within Meta...