NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS),实现 8× KV 缓存压缩

随着推理密集型任务需求的增长,大型语言模型 (LLM) 越来越有望生成更长的序列或并行推理链。然而,推理时间性能不仅受限于生成的令牌数量,还严重受限于键值 (KV) 缓存的内存占用...

动态内存稀疏化(DMS)是一种高效的键值缓存压缩方法,能够在不降低模型精度的情况下提升推理性能。研究表明,DMS在多个基准测试中表现优异,实现了8倍的KV缓存压缩,同时保持或提高了模型性能,适合资源受限环境。

NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS),实现 8× KV 缓存压缩
原文中文,约1900字,阅读约需5分钟。发表于:
阅读原文