KV 缓存每通道 1 位:带耦合量化的高效大语言模型推断

💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

本研究提出了多种针对大型语言模型(LLMs)关键值缓存的量化方法,如KIVI和WKVQuant,显著提高了内存效率和推理性能。通过动态保留重要键值对,内存使用减少了70%,缓存压缩比高达10倍。这些方法在LLaMA、Falcon等模型上表现优异,推动了更长上下文应用的可能性。

🎯

关键要点

  • LLMs在大文本分析和摘要等需要大上下文窗口的应用中得到广泛应用,KV缓存激活是推断过程中主要的内存占用来源。

  • 本研究提出了多种KV激活量化方法,包括通道关键激活量化、Rotary位置嵌入本地化量化、非均匀KV缓存量化、向量稠密稀疏量化和Q-Norm。

  • 应用这些方法于LLaMA、LLaMA-2和Mistral模型,使用3位量化实现了小于0.1的困惑度退化,优于现有方法。

  • KIVI算法在几乎不减少质量的情况下,使用2.6倍的峰值内存,实现高达4倍的批处理大小,提升了推理负载吞吐量。

  • WKVQuant框架通过二维量化策略处理KV缓存分布,实现了与权重-激活量化相当的内存节省。

  • QAQ方案通过异常值处理和改进的注意力感知方法,实现了KV缓存大小最大10倍的压缩比,减少了部署LLM的实际困境。

  • 混合精度KV缓存(MiKV)方法通过低精度保留被清除的KV对和高精度保留重要KV对,确保生成质量。

  • QoQ算法通过使用4位权重、8位激活和4位KV缓存,提高了LLM服务的效率,降低了成本。

  • GPTVQ方法通过增加量化维度改善了神经网络量化的大小和准确性之间的权衡,建立了新的最先进的状态。

延伸问答

KV缓存的量化方法有哪些?

主要包括通道关键激活量化、Rotary位置嵌入本地化量化、非均匀KV缓存量化、向量稠密稀疏量化和Q-Norm。

KIVI算法的优势是什么?

KIVI算法在几乎不减少质量的情况下,使用2.6倍的峰值内存,实现高达4倍的批处理大小,提升推理负载吞吐量。

WKVQuant框架如何优化KV缓存?

WKVQuant通过二维量化策略处理KV缓存分布,实现了与权重-激活量化相当的内存节省。

QAQ方案的主要功能是什么?

QAQ方案通过异常值处理和改进的注意力感知方法,实现了KV缓存大小最大10倍的压缩比,减少了部署LLM的实际困境。

混合精度KV缓存(MiKV)方法的目的是什么?

MiKV方法通过低精度保留被清除的KV对和高精度保留重要KV对,确保生成质量。

QoQ算法如何提高LLM服务的效率?

QoQ算法通过使用4位权重、8位激活和4位KV缓存,降低成本并提高LLM服务的效率。

🏷️

标签

➡️

继续阅读