💡
原文中文,约10700字,阅读约需26分钟。
📝
内容提要
本文介绍了在 Amazon Bedrock 上为 Claude 应用设计的 Prompt Cache 策略,旨在降低输入成本和响应延迟,适用于长上下文应用。讨论了 cache checkpoint 的放置、内容块的定义及其限制,并提出了单个尾部 checkpoint 和三 CP 布局两种策略。建议监控使用情况,以优化性能和降低成本。
🎯
关键要点
- 在 Amazon Bedrock 上为 Claude 应用设计的 Prompt Cache 策略可以降低输入成本和响应延迟,适用于长上下文应用。
- Prompt cache 缓存的是 prompt prefix,命中判断基于历史已缓存 checkpoint 的最长 prefix。
- content block 是 Bedrock Converse API 中的基本元素,20-block 回看限制影响 cache 命中率。
- 推荐的布局策略包括单个尾部 checkpoint 和三 CP 布局,适用于不同复杂度的场景。
- Claude 模型支持 extended thinking,建议保留完整 reasoningContent 和 signature,避免在 reasoningContent 后插入 cachePoint。
- Prompt caching 的成本模型分为普通 input、cache write 和 cache read token,建议监控这些字段以优化性能。
- 上线后应记录使用情况,监控 cache hit rate 和各类 token 的使用,以便及时排障和优化策略。
❓
延伸问答
什么是 Prompt Cache 策略,它的主要目的是什么?
Prompt Cache 策略旨在降低长上下文应用的输入成本和响应延迟,特别适用于包含长系统提示和多轮历史的 Claude 应用。
在设计 Prompt Cache 时,推荐的布局策略有哪些?
推荐的布局策略包括单个尾部 checkpoint 和三 CP 布局,适用于不同复杂度的场景。
如何监控 Prompt Cache 的使用情况以优化性能?
建议监控 cache hit rate、inputTokens、cacheWriteInputTokens 和 cacheReadInputTokens,以便及时排障和优化策略。
什么是 content block,它在 Prompt Cache 中的作用是什么?
Content block 是 Bedrock Converse API 中的基本元素,影响 cache 命中率,20-block 回看限制约束当前 checkpoint 与最近可命中 checkpoint 的距离。
Prompt Cache 的成本模型是如何划分的?
Prompt Cache 的成本模型分为普通 input、cache write 和 cache read token,三者互不重叠。
在使用 Claude 模型时,如何处理 reasoningContent 和 cache checkpoint 的关系?
建议保留完整的 reasoningContent 和 signature,不要在 reasoningContent 后插入 cachePoint,以避免模型拒绝该位置。
➡️