极道 ·

KVarN：华为用于KVCache量化的原生vLLM后端

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

华为开源的KVarN是一种KV Cache量化技术，通过Hadamard旋转和双轴方差归一化，有效解决大模型推理中的显存瓶颈。该技术在2-bit量化下保持接近FP16的精度，显存占用降低至原来的三分之一到五分之一，吞吐量超越FP16，且无需校准，已集成至vLLM框架。

🎯

🔎

KVarN通过Hadamard旋转和双轴方差归一化技术，显著降低了KV Cache的显存占用。这种方法不仅提升了上下文处理能力，还在2-bit量化下保持了接近FP16的精度，适合需要长上下文的应用场景。

KVarN特别适合Agent开发者、长篇小说作者和代码生成器等需要处理复杂上下文的用户。对于显存有限的用户，KVarN能够显著提升模型的运行效率，避免因显存不足导致的推理失败。

KVarN与SINQ相辅相成，前者专注于KV Cache的动态生成数据压缩，后者则处理模型权重的存储优化。两者结合使用，可以在显存和计算效率上实现更大的提升，适合大模型的高效推理。

❓

KVarN是华为开源的KV Cache量化技术，旨在解决大模型推理中的显存瓶颈，显著降低显存占用并提高吞吐量。

KVarN通过Hadamard旋转和双轴方差归一化技术，将显存占用降低至原来的三分之一到五分之一。

在2-bit量化下，KVarN保持接近FP16的精度，且吞吐量超过FP16。

KVarN无需校准，用户只需在vLLM框架中添加一条参数即可启用。

KVarN特别适合需要处理长上下文的应用，如Agent开发者、长篇小说作者和代码生成器。

KVarN和SINQ是互补的，SINQ负责模型权重的压缩，而KVarN则处理模型运行时生成的KV Cache。

🏷️