KeepKV:消除KV缓存压缩中的输出扰动以提高大规模语言模型推理效率
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种自适应KV缓存合并方法KeepKV,旨在解决大型语言模型推理中的KV缓存膨胀问题,以确保高效性能和注意力一致性。
🎯
关键要点
- 本研究提出了一种自适应KV缓存合并方法KeepKV。
- KeepKV旨在解决大型语言模型推理中的KV缓存膨胀问题。
- 该方法确保高效性能和注意力一致性。
- 通过引入选举票机制和零推理扰动合并方法,KeepKV消除输出扰动。
- KeepKV能够补偿合并过程中产生的注意力损失。
- 该方法在显著压缩的缓存中保留重要的上下文信息。
➡️