从键值缓存中学习驱逐

从键值缓存中学习驱逐

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

大型语言模型在推理时面临内存挑战,现有的缓存驱逐方法效率低下。我们将KV缓存驱逐重新定义为强化学习问题,提出KV策略(KVP),通过轻量级RL代理学习未来的有用性。KVP在多个基准测试中显著优于传统方法,证明了其在自适应缓存管理中的有效性。

🎯

关键要点

  • 大型语言模型(LLMs)的增长使得高效推理面临挑战,主要由于自回归键值(KV)缓存的内存需求。
  • 现有的缓存驱逐或压缩方法依赖于启发式算法,效率低下,增加了计算开销。
  • 我们将KV缓存驱逐重新定义为强化学习(RL)问题,学习根据未来的有用性对令牌进行排名。
  • 提出KV策略(KVP),通过轻量级的每头RL代理在预计算的生成轨迹上进行训练,仅使用键和值向量。
  • 每个代理学习一个专门的驱逐策略,评估所有缓存预算下排名的质量,无需修改底层LLM或额外推理。
  • 在长上下文基准RULER和多轮对话基准OASST2-4k上评估,KVP显著优于基线方法。
  • 在标准下游任务(如LongBench、BOOLQ、ARC)上的零-shot测试表明,KVP在训练分布之外和更长上下文长度上具有良好的泛化能力。
  • 这些结果表明,学习预测未来令牌的有用性是自适应KV缓存管理的强大且可扩展的范式。
➡️

继续阅读