NACL: 一个面向 LLMs 推理时基于 KV 存储缓存驱逐的通用和有效框架
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
大型语言模型在各个领域取得了很好的成绩,但长序列推理的广泛KV缓存限制了效率。研究人员提出了一种自适应分配算法,能在给定内存预算内减小缓存大小,同时保持生成质量。实验证实,该算法与两种最先进的方法结合使用,能在最高性能的技术水平上建立新的基准。
🎯
关键要点
- 大型语言模型在各个领域取得了很好的成绩。
- 长序列推理所需的广泛KV缓存限制了效率。
- 现有策略均匀分配预算到不同的注意力头,降低了生成质量。
- 提出了一种自适应分配算法,能在给定内存预算内减小缓存大小。
- 该算法在理论上确保损失上限不超过均匀分配方法的上限。
- 算法与自注意机制特性相一致,实际降低上限。
- 结合两种最先进的方法,得到了Ada-SnapKV和Ada-Pyramid。
- 广泛实验验证显示,Ada-SnapKV和Ada-Pyramid在最高性能技术水平上建立了新基准。
➡️