AsymKV:启用具有层级非对称量化配置的KV缓存1位量化

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

研究引入新方法量化大型语言模型的KV缓存激活,以减少内存占用。这些方法包括通道关键激活量化和旋转位置嵌入本地化量化。在LLaMA和Mistral模型上应用,在Wikitext-2和C4数据集上效果优于现有方法。单个A100-80GB GPU支持LLaMA-7B模型上下文长度达100万,8-GPU系统支持1000万。

原文中文,约400字,阅读约需1分钟。
阅读原文