本研究探讨了大型语言模型推理中KV缓存的内存瓶颈问题。通过量化修剪,使用较低精度存储更多Token显著提升了长上下文性能,尤其在检索任务中表现优异,为KV缓存压缩中的Token-精度权衡提供了新见解。
完成下面两步后,将自动完成登录并继续当前操作。