通过强化学习优化键值缓存的驱逐策略

通过强化学习优化键值缓存的驱逐策略

💡 原文英文,约400词,阅读约需2分钟。
📝

内容提要

本文探讨了通过强化学习优化键值缓存的驱逐策略,以提升大型语言模型的推理效率。研究提出了KV Policy框架,利用轻量级RL代理根据未来效用对令牌进行排名,从而显著改善缓存管理效果。KVP在多个基准测试中表现优异,展现了其在适应性KV缓存管理中的潜力。

🎯

关键要点

  • 大型语言模型(LLMs)的增长使得高效推理变得具有挑战性,主要是由于自回归键值(KV)缓存的内存需求。
  • 现有的驱逐或压缩方法依赖于启发式算法,如最近性或过去的注意力分数,这些方法仅作为令牌未来效用的间接代理,并引入计算开销。
  • 本文将KV缓存驱逐重新框定为强化学习(RL)问题:学习根据令牌的未来有用性对其进行排名。
  • 提出了KV Policy(KVP)框架,利用轻量级的每头RL代理,根据预先计算的生成轨迹进行训练,仅使用键和值向量。
  • 每个代理学习一个专门的驱逐策略,依据未来效用评估排名质量,且无需对底层LLM或额外推理进行修改。
  • 在长上下文基准RULER和多轮对话基准OASST2-4k上评估,KVP显著优于基线。
  • 零-shot测试表明,KVP在标准下游任务(如LongBench、BOOLQ、ARC)上具有良好的泛化能力,适用于更长的上下文长度。
  • 这些结果表明,学习预测未来令牌效用是一种强大且可扩展的自适应KV缓存管理范式。

延伸问答

如何通过强化学习优化键值缓存的驱逐策略?

通过将KV缓存驱逐重新框定为强化学习问题,学习根据令牌的未来有用性对其进行排名,从而优化驱逐策略。

KV Policy框架的主要功能是什么?

KV Policy框架利用轻量级的每头RL代理,根据预先计算的生成轨迹进行训练,以评估令牌的未来效用并优化缓存管理。

KVP在基准测试中的表现如何?

KVP在长上下文基准RULER和多轮对话基准OASST2-4k上显著优于基线,显示出其在适应性KV缓存管理中的潜力。

现有的KV缓存驱逐方法存在哪些局限性?

现有方法依赖启发式算法,如最近性或过去的注意力分数,作为令牌未来效用的间接代理,并引入计算开销。

KVP的零-shot测试结果如何?

零-shot测试表明,KVP在标准下游任务上具有良好的泛化能力,适用于更长的上下文长度。

学习预测未来令牌效用的意义是什么?

学习预测未来令牌效用是一种强大且可扩展的自适应KV缓存管理范式,有助于提升大型语言模型的推理效率。

➡️

继续阅读