Shadow Walker 松烟阁 ·

从KV Cache到Prompt Cache的应用

💡 原文中文，约21100字，阅读约需51分钟。

📝

内容提要

本文探讨了大模型推理中的KV Cache优化，分析了显存瓶颈及其对推理成本的影响。通过比较DeepSeek MLA和vLLM等技术架构，提出了Prompt Cache的应用，以降低推理成本并提升效率。

🎯

关键要点

本文探讨了大模型推理中的KV Cache优化，分析显存瓶颈及其对推理成本的影响。
通过比较DeepSeek MLA和vLLM等技术架构，提出Prompt Cache的应用以降低推理成本并提升效率。
KV Cache成为大模型推理的瓶颈，显存容量和带宽限制影响推理性能。
Transformer模型的推理过程分为预填充和解码两个阶段，KV Cache用于存储历史token的信息。
KV Cache的显存占用量与序列长度、层数、头数和隐藏层维度成正比，长文本场景下显存需求极高。
内存墙和带宽瓶颈导致GPU计算单元闲置，推理成本上升。
注意力机制的演进从多头注意力（MHA）到多查询注意力（MQA）和分组查询注意力（GQA），以减小KV Cache体积。
DeepSeek的多头潜在注意力（MLA）通过低秩矩阵压缩和解耦旋转位置编码实现KV Cache的极致压缩。
vLLM引入PagedAttention解决显存碎片化问题，通过非连续存储和按需分配显存。
SGLang的RadixAttention通过基数树结构实现KV Cache的自动复用，提升复杂对话的处理能力。
StreamingLLM提出特殊缓存策略，保留注意力汇聚点以处理无限输入流。
KV Cache量化技术通过降低数据精度进一步压缩显存占用，FP8和INT4量化技术逐渐应用于生产环境。
各大厂商推出Prompt Cache服务，DeepSeek以极低的价格和磁盘级缓存策略颠覆市场。
开发者可通过语义缓存进一步降低成本，语义缓存与Prompt Cache互补。
Prompt Cache的普及标志着LLM服务向有状态操作系统演变，开发者需管理Context生命周期。

🏷️

继续阅读

Valkey和Redis的有序集合：排行榜及其他应用
Valkey和Redis都提供简单易学且功能强大的核心数据类型，性能优秀且持续优化。Valkey社区积极提升有序集合的性能，支持多种定义排序的数值，如时间戳、优先级等。
5个强大的Python装饰器来优化LLM应用
diskcache库利用SQLite实现持久化缓存，适合存储耗时函数的结果，如LLM API调用，能在后续调用中快速检索，适用于内存不足的情况。
三安光电与清华大学、中国移动协同创新，拓展Micro LED技术应用
三安光电与清华大学、中国移动在Micro LED技术上取得突破，成功应用于数据中心光互连，显著提升信息传输效率。新型Micro LED光源器件的调制带宽超...
qwen3.5:9b虽然好，但它的思考过程太浪费时间了
用户希望模型直接回答问题，但模型多次回应“好的，请提问”，并强调需要内部处理，导致对话循环。
AI短剧冲击来袭：没有公会的地方，替代为何更直接更残酷
由于AI的替代，真人短剧项目在中国迅速减少，尤其在缺乏演员工会的情况下。短剧平台纷纷停止真人项目，转向AI仿真人剧，导致中小演员失业，行业竞争加剧。未来短...
2026 03 08 HackerNews
2026年3月，美国科技行业就业形势严峻，中级开发者失业人数增加。企业更倾向于具备实际动手能力的开发者，强调快速交付和跨领域学习的重要性。

从KV Cache到Prompt Cache的应用

内容提要

关键要点

标签

继续阅读