MiniCache:大型语言模型的键值缓存深度维度压缩
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
实验证明减少精度量化保存的KV对能恢复引起的退化。提出了一种可靠的缓存压缩方法MiKV,通过保留被清除的KV对的低精度和重要的KV对的高精度来确保生成质量。与其他基准相比,该方法在多种基准和LLM骨干上提供了最先进的压缩比和性能的权衡。
🎯
关键要点
- 实验证明减少精度量化保存的KV对能恢复引起的退化。
- 重要的KV对必须保留较高的精度以确保生成质量。
- 提出了一种可靠的缓存压缩方法MiKV。
- MiKV通过保留被清除的KV对的低精度和重要的KV对的高精度来确保生成质量。
- 与其他基准相比,MiKV在多种基准和LLM骨干上提供了最先进的压缩比和性能的权衡。
➡️