Exploring the Limits of KV Cache Compression in Visual Autoregressive Transformers

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨了视觉自回归模型在推理过程中的高内存开销,首次形式化定义了KV缓存压缩问题,并证明在特定条件下,基于注意力架构的生成机制至少需要$(n^2 d)$的内存,揭示了实现次平方级内存使用的不可行性,为未来的内存优化提供了理论依据。

🎯

关键要点

  • 本研究探讨了视觉自回归模型在推理过程中存储已生成表示所需的高内存开销问题。
  • 首次形式化定义了KV缓存压缩问题。
  • 证明任何基于注意力架构的序列视觉标记生成机制在特定条件下必须使用至少Ω(n^2 d)的内存。
  • 揭示了实现次平方级内存使用的不可行性。
  • 该结果为未来的内存优化方向提供了重要的理论依据。
➡️

继续阅读