EpiCache:用于长对话问答的情节KV缓存管理

EpiCache:用于长对话问答的情节KV缓存管理

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

EpiCache是一种无训练的KV缓存管理框架,通过块预填充和情节KV压缩来控制缓存增长,从而提升多轮对话的准确性,减少延迟和内存使用。

🎯

关键要点

  • EpiCache是一种无训练的KV缓存管理框架,旨在提升多轮对话的准确性。
  • KV缓存的内存随着对话长度线性增长,容易在资源有限的情况下造成问题。
  • 现有的KV缓存压缩方法存在两个主要限制:一是完全上下文预填充后驱逐条目导致峰值内存不受限,二是查询依赖的驱逐限制了缓存的使用。
  • EpiCache通过块预填充控制缓存增长,并通过情节KV压缩保留与主题相关的上下文。
  • EpiCache将对话历史聚类为一致的情节,并应用情节特定的KV缓存驱逐策略。
  • 设计了一种自适应的层级预算分配策略,根据每层对驱逐的敏感性分配内存预算。
  • 在三个LongConvQA基准测试中,EpiCache的准确性提高了最多40%,在4-6倍压缩下保持接近完整的KV准确性。
  • EpiCache还将延迟和内存使用分别减少了最多2.4倍和3.5倍,从而在严格的资源限制下实现高效的多轮交互。
➡️

继续阅读