大型语言模型在长上下文应用中面临GPU内存瓶颈,提出了交换向量量化(CommVQ)方法,通过轻量编码器和代码本压缩KV缓存,显著降低内存使用。该方法结合旋转位置嵌入和期望最大化算法,减少计算开销并保持高准确性。实验结果显示,2位量化下FP16 KV缓存大小减少87.5%,1位量化时准确性损失极小,使得在单个RTX 4090 GPU上运行LLaMA-3.1 8B模型成为可能。
完成下面两步后,将自动完成登录并继续当前操作。