Shadow Walker 松烟阁 ·

从KV Cache到Prompt Cache的应用

💡 原文中文，约21100字，阅读约需51分钟。

📝

内容提要

本文探讨了大模型推理中的KV Cache优化，分析了显存瓶颈及其对推理成本的影响。通过比较DeepSeek MLA和vLLM等技术架构，提出了Prompt Cache的应用，以降低推理成本并提升效率。

🎯

关键要点

本文探讨了大模型推理中的KV Cache优化，分析显存瓶颈及其对推理成本的影响。
通过比较DeepSeek MLA和vLLM等技术架构，提出Prompt Cache的应用以降低推理成本并提升效率。
KV Cache成为大模型推理的瓶颈，显存容量和带宽限制影响推理性能。
Transformer模型的推理过程分为预填充和解码两个阶段，KV Cache用于存储历史token的信息。
KV Cache的显存占用量与序列长度、层数、头数和隐藏层维度成正比，长文本场景下显存需求极高。
内存墙和带宽瓶颈导致GPU计算单元闲置，推理成本上升。
注意力机制的演进从多头注意力（MHA）到多查询注意力（MQA）和分组查询注意力（GQA），以减小KV Cache体积。
DeepSeek的多头潜在注意力（MLA）通过低秩矩阵压缩和解耦旋转位置编码实现KV Cache的极致压缩。
vLLM引入PagedAttention解决显存碎片化问题，通过非连续存储和按需分配显存。
SGLang的RadixAttention通过基数树结构实现KV Cache的自动复用，提升复杂对话的处理能力。
StreamingLLM提出特殊缓存策略，保留注意力汇聚点以处理无限输入流。
KV Cache量化技术通过降低数据精度进一步压缩显存占用，FP8和INT4量化技术逐渐应用于生产环境。
各大厂商推出Prompt Cache服务，DeepSeek以极低的价格和磁盘级缓存策略颠覆市场。
开发者可通过语义缓存进一步降低成本，语义缓存与Prompt Cache互补。
Prompt Cache的普及标志着LLM服务向有状态操作系统演变，开发者需管理Context生命周期。

🔎

延伸解读

KV Cache的显存挑战

KV Cache在大模型推理中面临显存瓶颈，尤其在处理长文本时，显存需求急剧增加。显存的容量和带宽限制直接影响推理性能，导致GPU计算单元闲置，推理成本上升。开发者需关注显存管理策略，以优化资源利用。

Prompt Cache的优势与应用

Prompt Cache的引入为大模型推理带来了显著的成本降低和效率提升。通过对历史token的有效存储，开发者可以在长文本场景中实现更高的并发处理能力。理解Prompt Cache的工作机制，有助于开发者更好地管理上下文生命周期。

技术架构的演进

从多头注意力（MHA）到多查询注意力（MQA）和分组查询注意力（GQA），技术架构的演进旨在平衡显存占用与推理性能。开发者应关注这些架构的适用场景，以选择最合适的模型来满足特定需求。

量化技术的应用前景

KV Cache的量化技术正在逐步应用于生产环境，尤其是FP8和INT4量化。尽管量化可以显著降低显存占用，但在高精度要求的任务中仍需谨慎评估其影响。开发者应关注量化技术的最新进展，以优化模型性能。

❓

延伸问答

KV Cache在大模型推理中有什么作用？

KV Cache用于存储历史token的信息，以避免在生成每个新token时重新计算前面的K和V投影，从而提高推理效率。

显存瓶颈如何影响大模型的推理成本？

显存瓶颈限制了Batch Size，导致GPU计算单元闲置，从而推高推理成本。

Prompt Cache的应用如何降低推理成本？

Prompt Cache通过缓存历史上下文，减少重复计算，从而降低推理成本并提升效率。

DeepSeek MLA和vLLM有什么主要区别？

DeepSeek MLA通过低秩矩阵压缩实现KV Cache的极致压缩，而vLLM则通过PagedAttention解决显存碎片化问题。

如何通过量化技术降低KV Cache的显存占用？

KV Cache量化技术通过降低数据精度（如FP8和INT4）来压缩显存占用，提升推理效率。

RadixAttention在缓存管理中有什么创新？

RadixAttention将KV Cache维护为基数树结构，自动发现可复用的KV Cache，提升复杂对话的处理能力。

🏷️