Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种新的即插即用KV缓存量化方法VidKV,旨在解决视频大型语言模型在处理长视频时的内存瓶颈问题。该方法将KV缓存压缩至低于2位,并通过通道级别量化实现精度与性能的平衡。

🎯

关键要点

  • 本研究提出了一种新的即插即用KV缓存量化方法VidKV,旨在解决视频大型语言模型在处理长视频时的内存瓶颈问题。
  • VidKV方法能够将KV缓存压缩至低于2位。
  • 研究发现,针对价值缓存的量化应采用通道级别而非按标记的方式,以在精度和模型性能之间取得更好的平衡。
➡️

继续阅读