Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新的即插即用KV缓存量化方法VidKV,旨在解决视频大型语言模型在处理长视频时的内存瓶颈问题。该方法将KV缓存压缩至低于2位,并通过通道级别量化实现精度与性能的平衡。
🎯
关键要点
- 本研究提出了一种新的即插即用KV缓存量化方法VidKV,旨在解决视频大型语言模型在处理长视频时的内存瓶颈问题。
- VidKV方法能够将KV缓存压缩至低于2位。
- 研究发现,针对价值缓存的量化应采用通道级别而非按标记的方式,以在精度和模型性能之间取得更好的平衡。
➡️