Redis Blog ·

什么是提示缓存？大型语言模型的速度与成本指南

💡 原文英文，约1900词，阅读约需7分钟。

📝

内容提要

构建大型语言模型时，延迟和成本问题普遍存在。通过提示缓存，可以存储计算状态，减少冗余计算，从而降低响应时间和输入成本。提示缓存通过匹配前缀优化请求，结合Redis等工具可实现更高效的缓存策略，提升性能并降低费用。

🎯

❓

提示缓存通过存储计算状态，避免重复计算，从而减少首次令牌时间（TTFT），降低响应时间。

提示缓存可以显著降低输入令牌成本，尤其是在长提示的情况下，减少冗余计算带来的费用。

提示缓存专注于模型层的计算优化，而常规缓存和语义缓存则分别处理精确匹配和语义相似性，三者应结合使用以提高效率。

应将稳定内容放在前面，变化内容放在后面，以增加缓存命中率，常见的顺序包括工具定义、系统提示和用户查询。

在RAG设置中，提示缓存可以显著提高性能，尤其是当多个用户查询相同知识库时，减少冗余计算。

提示缓存的主要限制是前缀匹配，只有当缓存的前缀与新提示完全相同时，模型才能重用缓存计算。

🏷️

Intercom 的 Fin Apex 提高了 AI CX 供应商的标准
Intercom发布的Fin Apex公告显示其新AI客服模型解决率提升至75%，成本降低。公司强调未来竞争将依赖于专有数据和持续优化的技术，而成功的供应...
JetBrains：AI代理即将重演云计算投资回报危机
JetBrains正在通过加强代理和AI驱动的工作流程，提升成本和治理的可见性。Hadi Hariri提到，他们已在内部试点JetBrains Central。
设计原则实用指南
设计原则应由整个产品团队共同制定，涵盖设计师及其他领域的参与者，以确保用户体验包括性能、支持和客户服务等多个方面。
OpenClaw v2026.3.31 默认安全模型升级详解与迁移指南
OpenClaw v2026.3.31 实现了从“默认信任”到“零信任”的安全模型，强化了权限控制和插件安全，确保所有操作必须经过授权，以提升系统安全性。
使用Veo 3.1 Lite构建，我们最具成本效益的视频生成模型
谷歌推出Veo 3.1 Lite视频模型，成本低于Veo 3.1 Fast，支持文本和图像转视频，提供灵活的画幅和分辨率。4月7日将降低Veo 3.1 F...
Today is the final day to save up to $150 on a PS5 before the price goes up
The cost of the PlayStation Portal and every PlayStation 5 console is going u...