小红花·文摘

本研究探讨了大型语言模型推理中KV缓存的内存瓶颈问题。通过量化修剪，使用较低精度存储更多Token显著提升了长上下文性能，尤其在检索任务中表现优异，为KV缓存压缩中的Token-精度权衡提供了新见解。