在 Amazon Bedrock 上为 Claude 应用设计稳健的 Prompt Cache 策略

在 Amazon Bedrock 上为 Claude 应用设计稳健的 Prompt Cache 策略

💡 原文中文,约10700字,阅读约需26分钟。
📝

内容提要

本文介绍了在 Amazon Bedrock 上为 Claude 应用设计的 Prompt Cache 策略,旨在降低输入成本和响应延迟,适用于长上下文应用。讨论了 cache checkpoint 的放置、内容块的定义及其限制,并提出了单个尾部 checkpoint 和三 CP 布局两种策略。建议监控使用情况,以优化性能和降低成本。

🎯

关键要点

  • 在 Amazon Bedrock 上为 Claude 应用设计的 Prompt Cache 策略可以降低输入成本和响应延迟,适用于长上下文应用。
  • Prompt cache 缓存的是 prompt prefix,命中判断基于历史已缓存 checkpoint 的最长 prefix。
  • content block 是 Bedrock Converse API 中的基本元素,20-block 回看限制影响 cache 命中率。
  • 推荐的布局策略包括单个尾部 checkpoint 和三 CP 布局,适用于不同复杂度的场景。
  • Claude 模型支持 extended thinking,建议保留完整 reasoningContent 和 signature,避免在 reasoningContent 后插入 cachePoint。
  • Prompt caching 的成本模型分为普通 input、cache write 和 cache read token,建议监控这些字段以优化性能。
  • 上线后应记录使用情况,监控 cache hit rate 和各类 token 的使用,以便及时排障和优化策略。

延伸问答

什么是 Prompt Cache 策略,它的主要目的是什么?

Prompt Cache 策略旨在降低长上下文应用的输入成本和响应延迟,特别适用于包含长系统提示和多轮历史的 Claude 应用。

在设计 Prompt Cache 时,推荐的布局策略有哪些?

推荐的布局策略包括单个尾部 checkpoint 和三 CP 布局,适用于不同复杂度的场景。

如何监控 Prompt Cache 的使用情况以优化性能?

建议监控 cache hit rate、inputTokens、cacheWriteInputTokens 和 cacheReadInputTokens,以便及时排障和优化策略。

什么是 content block,它在 Prompt Cache 中的作用是什么?

Content block 是 Bedrock Converse API 中的基本元素,影响 cache 命中率,20-block 回看限制约束当前 checkpoint 与最近可命中 checkpoint 的距离。

Prompt Cache 的成本模型是如何划分的?

Prompt Cache 的成本模型分为普通 input、cache write 和 cache read token,三者互不重叠。

在使用 Claude 模型时,如何处理 reasoningContent 和 cache checkpoint 的关系?

建议保留完整的 reasoningContent 和 signature,不要在 reasoningContent 后插入 cachePoint,以避免模型拒绝该位置。

➡️

继续阅读