AsymKV：启用具有层级非对称量化配置的KV缓存1位量化

本研究解决了大型语言模型因其庞大的参数量而面临的存储空间限制问题。通过深入探讨KV缓存中的非对称特性，提出了一种独特的1位量化策略，该策略针对关键矩阵和数值矩阵实施不同配置。实验结果表明，我们的方法可在保持类似性能水平的前提下，成功量化高达75%的解码器层。

研究引入新方法量化大型语言模型的KV缓存激活，以减少内存占用。这些方法包括通道关键激活量化和旋转位置嵌入本地化量化。在LLaMA和Mistral模型上应用，在Wikitext-2和C4数据集上效果优于现有方法。单个A100-80GB GPU支持LLaMA-7B模型上下文长度达100万，8-GPU系统支持1000万。

GPU KV缓存 LLaMA Mistral 量化