Shadow Walker 松烟阁 ·

推理的物理学 – 深入探讨KV缓存和提示缓存

💡 原文英文，约2500词，阅读约需10分钟。

📝

内容提要

本文分析了KV缓存优化，探讨了DeepSeek的MLA架构如何演变为vLLM和SGLang，强调推理效率在生成AI商业化中的重要性。KV缓存管理成为主要瓶颈，文章还讨论了不同注意力机制对内存带宽的影响，以及低秩压缩和系统软件管理的重要性。

🎯

关键要点

本文分析了KV缓存优化，强调推理效率在生成AI商业化中的重要性。
KV缓存管理成为主要瓶颈，影响系统吞吐量和延迟。
推理过程分为预填充阶段和解码阶段，KV缓存的大小与序列长度成线性关系。
内存带宽是影响推理效率的关键因素，GPU在解码过程中大部分时间等待数据。
架构演变从多头注意力（MHA）到多头潜在注意力（MLA），实现了极端压缩。
DeepSeek的MLA通过低秩压缩和解耦的旋转位置嵌入（RoPE）降低了KV缓存的内存占用。
系统软件管理通过PagedAttention和RadixAttention等技术优化了内存使用。
市场上不同公司的缓存实现策略各异，DeepSeek的价格显著低于其他竞争者。
语义缓存作为补充，利用嵌入技术提高查询效率，减少对LLM的调用。
开发者需根据任务需求选择合适的缓存策略，以优化成本和性能。

❓

延伸问答

KV缓存优化的主要挑战是什么？

KV缓存管理成为主要瓶颈，影响系统吞吐量和延迟。

DeepSeek的MLA架构如何提高推理效率？

DeepSeek的MLA通过低秩压缩和解耦的旋转位置嵌入降低了KV缓存的内存占用。

不同的注意力机制对内存带宽有什么影响？

不同注意力机制影响内存带宽，导致GPU在解码过程中大部分时间等待数据。

如何选择合适的缓存策略以优化成本和性能？

开发者需根据任务需求选择合适的缓存策略，以优化成本和性能。

KV缓存的大小与序列长度有什么关系？

KV缓存的大小与序列长度成线性关系，影响内存使用。

市场上不同公司的缓存实现策略有何不同？

市场上不同公司的缓存实现策略各异，DeepSeek的价格显著低于其他竞争者。

🏷️

继续阅读

国家科学基金会续资麻省理工学院主导的人工智能与物理学研究所，扩展新的发现模式
麻省理工学院主导的人工智能与基础相互作用研究所（IAIFI）获得国家科学基金会续资，年资助额从400万美元增至498万美元。IAIFI致力于将人工智能与物...
奥迪 R8 继任者发布！大 V8+千匹马力，走的却是复古风
奥迪重新走向「运动」#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
我用彩色配件定制了一台MacBook Neo
苹果的MacBook Neo是最便宜、色彩丰富且易于维修的笔记本电脑。用户可以自行更换彩色配件，尽管成本较高。作者尝试定制Neo，替换触控板、底壳和键帽，...
阿里开源Open Code Review：一款AI代码评审命令行工具
代码审查还在靠人工一行一行看？阿里把这个内部AI工具开源了 Open Code Review（简称 OCR）是阿里巴巴于 2026 年开源的 AI 代码...
本周赛博领鸡蛋：《征服之歌》（5.30~6.5）
本周 Epic Games 送出 2 款桌面游戏、1 款手机游戏，分别是《征服之歌》《Rogue Waters / 恶棍水域》和手机游戏《Wytchwoo...
论独立游戏的起步立项方法论
独立游戏的成功依赖于立项阶段的清晰规划。开发者需关注可发行最小规格、财务回报率和产品定位，明确目标、合理分配资源，避免过度追求完美，以确保项目按时完成。市...