ZigZagkv: Dynamic KV Cache Compression for Long-context Modeling Based on Layer Uncertainty

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文研究了大型语言模型中KV缓存的压缩问题,提出了一种基于层不确定性的动态分配预算的方法,显著降低了KV缓存内存使用率至约20%,同时保持推理性能,为长上下文建模提供了有效解决方案。

🎯

关键要点

  • 本文研究了大型语言模型中KV缓存的压缩问题,尤其是推理长度增加带来的内存不足挑战。

  • 提出了一种基于层不确定性的动态分配预算的方法,显著降低了KV缓存内存使用率至约20%。

  • 该方法几乎保持了推理性能,填补了现有技术在层级信息保留上的不足。

  • 为长上下文建模提供了有效解决方案。

➡️

继续阅读