More Tokens, Lower Precision: Advancing Towards the Optimal Token-Precision Trade-off in KV Cache Compression

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨了大型语言模型推理中KV缓存的内存瓶颈问题。通过量化修剪,使用较低精度存储更多Token显著提升了长上下文性能,尤其在检索任务中表现优异,为KV缓存压缩中的Token-精度权衡提供了新见解。

🎯

关键要点

  • 大型语言模型在推理过程中KV缓存的内存使用成为瓶颈。

  • 量化修剪技术通过使用较低精度存储更多Token,显著提升了长上下文性能。

  • 在检索任务中,量化修剪尤其表现优异,适应不同输入长度。

  • 研究为KV缓存压缩中的Token-精度权衡提供了新见解。

➡️

继续阅读