小红花·文摘

本研究提出LagKV策略，解决了大语言模型在长上下文推理中KV缓存过大的问题。该策略通过比较KV关系，实现高效的缓存压缩，几乎不影响性能，并在特定任务上优于注意力权重方法。