QAQ: LLM KV 缓存的质量自适应量化
原文中文,约300字,阅读约需1分钟。发表于: 。提出了 QAQ,一种针对 KV 缓存的质量自适应量化方案,通过集成专用的异常值处理和改进的注意力感知方法,QAQ 在对模型性能几乎没有影响的情况下,实现了 KV 缓存大小最大 10 倍的压缩比,显著减少了部署 LLM 的实际困境,并为更长上下文应用开辟了新的可能性。
实验证明通过减少精度量化保存被清除的KV对的一小部分信息可以恢复引起的退化。提出了一种可靠的缓存压缩方法,即混合精度KV缓存(MiKV),通过保留被清除的KV对的低精度和重要的KV对的高精度来确保生成质量。与其他基准相比,该方法在多种基准和LLM骨干上提供了最先进的压缩比和性能的权衡。