AsymKV:启用具有层级非对称量化配置的KV缓存1位量化
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究引入新方法量化大型语言模型的KV缓存激活,以减少内存占用。这些方法包括通道关键激活量化和旋转位置嵌入本地化量化。在LLaMA和Mistral模型上应用,在Wikitext-2和C4数据集上效果优于现有方法。单个A100-80GB GPU支持LLaMA-7B模型上下文长度达100万,8-GPU系统支持1000万。
🎯
关键要点
- LLMs 在大文本分析和摘要等应用中越来越广泛,KV 缓存激活是主要的内存占用来源。
- 研究引入新方法对 KV 激活进行量化,包括通道关键激活量化和旋转位置嵌入本地化量化等。
- 在 LLaMA、LLaMA-2 和 Mistral 模型上应用这些方法,在 Wikitext-2 和 C4 数据集上实现了优于现有方法的效果。
- 使用 3 位量化实现小于 0.1 的困惑度退化。
- 单个 A100-80GB GPU 支持 LLaMA-7B 模型上下文长度达 100 万,8-GPU 系统支持 1000 万。
➡️