The DigitalOcean Blog ·

大规模高级提示缓存

💡 原文英文，约1600词，阅读约需6分钟。

📝

内容提要

提示缓存通过重用已计算的KV状态来节省成本和降低延迟。现代推理引擎在单个副本中自动处理缓存，但在多个副本中缓存命中率降低。使用会话亲和性可以确保请求路由到同一副本，从而提高缓存利用率。理想的架构是共享缓存，但实现难度较大。目前团队应关注会话亲和性和良好的提示结构，以优化性能。

🎯

🔎

在多副本架构中，缓存命中率会随着副本数量的增加而降低。使用会话亲和性可以确保用户请求始终路由到同一副本，从而提高缓存的利用率。这种方法不仅能降低延迟，还能节省成本，因此在设计推理系统时，团队应优先考虑会话亲和性策略。

提示的结构直接影响缓存命中率。最佳实践是将静态内容放在前面，动态内容放在后面，确保系统提示、工具定义和用户消息的顺序合理。遵循这一结构可以提高缓存的有效性，避免不必要的计算，从而提升整体性能。

尽管共享缓存架构理想，但实现起来却面临挑战。网络延迟可能会影响性能，尤其是在跨节点的情况下。因此，团队在考虑共享缓存时，需要权衡延迟与计算成本之间的关系，确保在满足性能需求的同时，能够有效利用缓存。

❓

提示缓存是通过重用已计算的KV状态来节省成本和降低延迟的过程。

在多副本架构中，缓存命中率降低是因为请求在多个副本中均匀分配，导致相同前缀的请求只有1/N的机会命中缓存。

会话亲和性通过确保请求路由到同一副本，使得缓存的提示前缀可以在会话中重复使用，从而提高缓存利用率。

理想的提示缓存架构是一个共享缓存，所有副本都可以访问，但实现难度较大。

最佳实践是将静态内容放在前面，动态内容放在后面，确保系统提示、工具定义等按顺序排列。

关键监控指标包括缓存命中率、首次令牌时间（TTFT）和每个副本的缓存利用率。

🏷️