Apple Machine Learning Research ·

从键值缓存中学习驱逐

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

大型语言模型在推理时面临内存挑战，现有的缓存驱逐方法效率低下。我们将KV缓存驱逐重新定义为强化学习问题，提出KV策略（KVP），通过轻量级RL代理学习未来的有用性。KVP在多个基准测试中显著优于传统方法，证明了其在自适应缓存管理中的有效性。

🎯

关键要点

大型语言模型（LLMs）的增长使得高效推理面临挑战，主要由于自回归键值（KV）缓存的内存需求。
现有的缓存驱逐或压缩方法依赖于启发式算法，效率低下，增加了计算开销。
我们将KV缓存驱逐重新定义为强化学习（RL）问题，学习根据未来的有用性对令牌进行排名。
提出KV策略（KVP），通过轻量级的每头RL代理在预计算的生成轨迹上进行训练，仅使用键和值向量。
每个代理学习一个专门的驱逐策略，评估所有缓存预算下排名的质量，无需修改底层LLM或额外推理。
在长上下文基准RULER和多轮对话基准OASST2-4k上评估，KVP显著优于基线方法。
在标准下游任务（如LongBench、BOOLQ、ARC）上的零-shot测试表明，KVP在训练分布之外和更长上下文长度上具有良好的泛化能力。
这些结果表明，学习预测未来令牌的有用性是自适应KV缓存管理的强大且可扩展的范式。

🏷️

继续阅读

大型语言模型如何学习
要有效监控大型语言模型（LLMs），需了解其工作原理。LLMs通过调整参数模仿文本模式，而非真正理解。训练中使用损失函数评估性能，梯度下降算法优化模型。尽...
2026 年, 一起做些 AI 做不到的事罢
文章探讨了大型语言模型（LLM）对软件工程的影响，认为其改变了工作流程和逻辑推理能力。尽管技术进步提高了效率，但也引发了对工程师角色的担忧。作者呼吁人们重...
在Gemini应用中提示Lyria 3的6个技巧
谷歌DeepMind的Lyria 3音乐生成模型使创作变得简单。用户可以通过文本、图片或视频生成原创30秒音乐，选择风格和乐器，甚至上传图片、定义音乐风格...
Discord因用户反对而与Persona年龄验证保持距离
因用户反对，Discord决定与年龄验证提供商Persona保持距离，已结束在英国的测试。用户担忧Persona的隐私政策涉及个人数据收集。Discord...
Kohler的新淋浴系统循环利用污水让你保持清洁
Kohler推出的Anthem EvoCycle智能淋浴系统声称可节水80%。该系统通过底部水箱收集并过滤使用过的水进行循环使用，价格从7500美元起，配...
NVIDIA为全球关键基础设施带来AI驱动的网络安全
随着技术数字化，工业控制系统（ICS）越来越依赖企业网络和云，面临网络安全威胁。NVIDIA与多家网络安全公司合作，推动OT网络的零信任安全模型，以确保实...

从键值缓存中学习驱逐

内容提要

关键要点

标签

继续阅读