Apple Machine Learning Research ·

通过强化学习优化键值缓存的驱逐策略

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文探讨了通过强化学习优化键值缓存的驱逐策略，以提升大型语言模型的推理效率。研究提出了KV Policy框架，利用轻量级RL代理根据未来效用对令牌进行排名，从而显著改善缓存管理效果。KVP在多个基准测试中表现优异，展现了其在适应性KV缓存管理中的潜力。

🎯

❓

通过将KV缓存驱逐重新框定为强化学习问题，学习根据令牌的未来有用性对其进行排名，从而优化驱逐策略。

KV Policy框架利用轻量级的每头RL代理，根据预先计算的生成轨迹进行训练，以评估令牌的未来效用并优化缓存管理。

KVP在长上下文基准RULER和多轮对话基准OASST2-4k上显著优于基线，显示出其在适应性KV缓存管理中的潜力。

现有方法依赖启发式算法，如最近性或过去的注意力分数，作为令牌未来效用的间接代理，并引入计算开销。

零-shot测试表明，KVP在标准下游任务上具有良好的泛化能力，适用于更长的上下文长度。

学习预测未来令牌效用是一种强大且可扩展的自适应KV缓存管理范式，有助于提升大型语言模型的推理效率。

🏷️

h5i Radio – 利用 Git，让 Claude 和 Codex 进行实时对话
h5i 是一个开源工具，支持多个 AI Agent（如 Claude 和 Codex）通过 Git 协作。其 Agent Radio 功能利用 Git 仓...
Inserting in Two Tables in a Single Round-Trip with JSON Duality Views in MySQL 9.7
A few months ago, I was asking myself how to insert in two tables in a single...
台积电难以跟上人工智能需求：‘我们只能支持这么多’
台积电面临满足美国客户需求的挑战，尽管在美国扩建工厂。CEO魏哲家表示，客户需求过高，生产能力有限，可能需要很长时间才能满足。预计到2027年，半导体市场...
代理时代对数据科学的意义
人工智能与数据科学的交汇点正在变化，AI系统能够自主执行多步骤任务，改变了数据科学家的工作。数据科学家需要结合统计思维、编程能力和领域专业知识，同时设计和...
教你薅token（二）：构建agent无关的skills管理工作流
本文介绍了pks（个人技能管理器），一个用纯bash编写的工具，旨在管理AI工作流文档。pks允许用户集中管理特定项目的技能，如编码规范和API设计，并按...
我们正在赠送一个价值超过800美元的Prime Day科技礼包
Verge正在进行抽奖活动，奖品是一款价值超过800美元的Nomatic旅行包。活动从2026年6月4日开始，到6月30日结束，参与者只需填写信息即可报名...