模型指导的内容丢弃方法:用于大型语言模型的自适应 KV 缓存压缩
原文中文,约400字,阅读约需1分钟。发表于: 。通过自适应 KV 缓存压缩的插拔式方法,我们引入了一种减少大型语言模型(LLM)生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构,我们构建自适应 KV 缓存:针对局部上下文的注意力头强调接触范围短的上下文,针对特殊标记的注意力头中心化的丢弃非特殊标记,只有广泛关注所有标记的注意力头才使用标准 KV 缓存。此外,通过轻量级的注意力分析引导自适应 KV 缓存的构建,FastGen...
该文介绍了一种通过自适应 KV 缓存压缩的插拔式方法,减少大型语言模型生成推理内存占用。FastGen 在 GPU 内存消耗方面显著减少,同时几乎没有生成质量损失。