💡
原文英文,约300词,阅读约需1分钟。
📝
内容提要
EpiCache是一种无训练的KV缓存管理框架,通过块预填充和情节KV压缩来控制缓存增长,从而提升多轮对话的准确性,减少延迟和内存使用。
🎯
关键要点
- EpiCache是一种无训练的KV缓存管理框架,旨在提升多轮对话的准确性。
- KV缓存的内存随着对话长度线性增长,容易在资源有限的情况下造成问题。
- 现有的KV缓存压缩方法存在两个主要限制:一是完全上下文预填充后驱逐条目导致峰值内存不受限,二是查询依赖的驱逐限制了缓存的使用。
- EpiCache通过块预填充控制缓存增长,并通过情节KV压缩保留与主题相关的上下文。
- EpiCache将对话历史聚类为一致的情节,并应用情节特定的KV缓存驱逐策略。
- 设计了一种自适应的层级预算分配策略,根据每层对驱逐的敏感性分配内存预算。
- 在三个LongConvQA基准测试中,EpiCache的准确性提高了最多40%,在4-6倍压缩下保持接近完整的KV准确性。
- EpiCache还将延迟和内存使用分别减少了最多2.4倍和3.5倍,从而在严格的资源限制下实现高效的多轮交互。
➡️