NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS)，实现 8× KV 缓存压缩

随着推理密集型任务需求的增长，大型语言模型 (LLM) 越来越有望生成更长的序列或并行推理链。然而，推理时间性能不仅受限于生成的令牌数量，还严重受限于键值 (KV) 缓存的内存占用...

动态内存稀疏化（DMS）是一种高效的键值缓存压缩方法，能够在不降低模型精度的情况下提升推理性能。研究表明，DMS在多个基准测试中表现优异，实现了8倍的KV缓存压缩，同时保持或提高了模型性能，适合资源受限环境。

llm nvidia transformer 动态内存稀疏化压缩推理性能资源受限键值缓存