KeDiff:基于关键相似性的KV缓存淘汰方法,用于资源受限环境下的长上下文LLM推理
📝
内容提要
本研究解决了在资源受限环境中进行长输入提示的LLM推理时的缓存淘汰问题。提出的KeyDiff方法基于关键相似性,在不依赖于注意力分数的情况下,优化缓存选择,从而最大化关键多样性并提升性能。实验表明,KeyDiff显著提高了在内存和计算预算有限的情况下的推理效率,且在LongBench基准测试中表现出与非淘汰基线相差小于0.04%。
➡️