KeepKV:消除KV缓存压缩中的输出扰动以提高大规模语言模型推理效率

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种自适应KV缓存合并方法KeepKV,旨在解决大型语言模型推理中的KV缓存膨胀问题,以确保高效性能和注意力一致性。

🎯

关键要点

  • 本研究提出了一种自适应KV缓存合并方法KeepKV。
  • KeepKV旨在解决大型语言模型推理中的KV缓存膨胀问题。
  • 该方法确保高效性能和注意力一致性。
  • 通过引入选举票机制和零推理扰动合并方法,KeepKV消除输出扰动。
  • KeepKV能够补偿合并过程中产生的注意力损失。
  • 该方法在显著压缩的缓存中保留重要的上下文信息。
➡️

继续阅读