NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS),实现 8× KV 缓存压缩 随着推理密集型任务需求的增长,大型语言模型 (LLM) 越来越有望生成更长的序列或并行推理链。然而,推理时间性能不仅受限于生成的令牌数量,还严重受限于键值 (KV) 缓存的内存占用... 动态内存稀疏化(DMS)是一种高效的键值缓存压缩方法,能够在不降低模型精度的情况下提升推理性能。研究表明,DMS在多个基准测试中表现优异,实现了8倍的KV缓存压缩,同时保持或提高了模型性能,适合资源受限环境。 llm nvidia transformer 动态内存稀疏化 压缩 推理性能 资源受限 键值缓存