小红花·文摘

本文讨论了大型语言模型（LLM）请求的两个阶段：预填充和解码。预填充阶段处理整个提示，受限于计算能力；解码阶段逐个生成令牌，受限于内存带宽。优化策略需根据这两个阶段的特性进行调整，以提高响应速度。使用Redis的语义缓存可以在缓存命中时绕过推理过程，消除预填充和解码的成本。

预填充与解码：大型语言模型推理阶段解析

Redis Blog · 2026-04-28T00:00:00Z

本文介绍了大语言模型中的推理缓存技术，强调其基本概念和重要性。推理缓存通过存储计算结果，减少重复计算，从而降低成本和延迟。主要有三种缓存类型：键值缓存（KV缓存）、前缀缓存和语义缓存。合理选择和组合这些缓存策略，可以显著提升生产系统的效率。

大语言模型推理缓存完整指南

MachineLearningMastery.com · 2026-04-17T12:00:46Z

Redis的向量数据类型实现了毫秒级的无监督分类，支持语义缓存和语义路由优化。语义缓存通过向量数学判断缓存命中，语义路由则能快速在多标签中分类输入。这两种模式提升了系统性能，降低了成本，适用于多种应用场景。

语义缓存与路由：向量分类的两种强大模式

Redis Blog · 2026-03-13T00:00:00Z

本文介绍了PostgreSQL中的语义缓存，强调如何将其应用于生产环境。通过标签组织缓存条目、监控缓存健康状况和实施驱逐策略，确保数据的新鲜度和有效性。示例展示了如何在Python应用中集成语义缓存，以提高查询效率和降低API调用成本。

穆罕默德·阿基尔：生产环境中的pg_semantic_cache：标签、驱逐、监控与Python集成

Planet PostgreSQL · 2026-03-03T04:20:12Z

在大型语言模型（LLM）API调用中，重试可能导致重复收费。幂等性确保相同操作多次执行结果一致，从而避免不必要的费用。本文探讨了幂等性模式、Redis原子命令的应用及语义缓存策略，以减少重复查询和成本。通过使用幂等性键和内容哈希，LLM应用能够有效管理API调用，降低开销。

使用Redis的LLM应用幂等性模式

Redis Blog · 2026-02-11T00:00:00Z

本文讨论了语义缓存的概念，旨在解决聊天机器人API费用过高的问题。通过使用向量嵌入，语义缓存能够基于查询的含义而非文本匹配，提高命中率，降低成本，加快响应速度。文章还提供了实现语义缓存的步骤和Python代码示例，强调其在客户支持和常见问题解答中的应用价值。

LLM应用的语义缓存：降低成本40-80%，提升速度250倍

Percona Database Performance Blog · 2026-02-04T15:03:29Z

运行大型语言模型（LLM）的成本高昂，企业每季度支出超过8万美元。向量数据库是RAG系统的主要解决方案，但仅提供检索功能。生产AI系统还需具备会话管理、语义缓存和安全性等功能。语义缓存通过匹配查询意义来减少冗余调用，从而显著降低成本。有效的生产AI系统需结合多种技术，而非单一依赖向量数据库。

你需要的不仅仅是向量数据库

Redis Blog · 2026-02-03T00:00:00Z

langcache-embed-v3-small是一个专为低延迟语义缓存设计的嵌入模型，体积小、速度快，能更好地理解问题意图，减少缓存错误，提高效率，适合处理重复问题的系统。

介绍 langcache-embed-v3-small

Redis Blog · 2026-01-30T00:00:00Z

构建大型语言模型（LLM）应用时，推理成本和响应时间可能超出预期。低批量推理的瓶颈主要在于内存带宽而非计算能力。文章讨论了推理成本、性能瓶颈及优化策略，强调语义缓存和Redis在降低成本和提升响应速度中的关键作用。

如何优化机器学习推理成本和性能

Redis Blog · 2026-01-27T00:00:00Z

RAG系统从原型到生产需要不同架构，如双管道、混合检索和语义缓存，以提升性能和降低成本。在生产环境中，需增加数据存储层，保持索引同步，处理文档删除和缓存命中率。同时，有效的代理记忆架构对用户体验至关重要。

如何将RAG从原型扩展到生产环境

Redis Blog · 2026-01-21T00:00:00Z

语义缓存通过识别相似查询来减少API调用，从而降低成本和响应延迟。它将查询转换为向量以查找相似的缓存响应。正确设置相似度阈值和选择合适的嵌入模型非常重要，错误配置可能导致错误答案。有效的缓存架构和监控能提升性能，适用于FAQ系统和客户支持。

什么是语义缓存？

Redis Blog · 2026-01-21T00:00:00Z

语义缓存是一种存储语义信息的缓存方法，提高应用性能和响应速度。它可以加快数据处理和提供更相关的响应，特别适用于LLM应用。语义缓存可以与LLMs集成，广泛应用于自动客服、实时语言翻译和内容推荐等领域。实施语义缓存的最佳实践包括选择合适的基础设施、设计可扩展性和性能、确保准确性和一致性，并按步骤进行实施。

面向更快、更智能LLM应用的语义缓存

Redis Blog · 2026-01-20T00:00:00Z

大型语言模型（LLM）在处理长上下文时会出现准确性下降的问题，称为“上下文衰退”。斯坦福研究表明，信息位置影响准确性，位置越靠中间，准确率越低。上下文衰退导致响应质量下降、计算成本增加和架构复杂性提升。解决方案包括外部记忆架构和语义缓存，以保持固定上下文窗口并动态检索相关信息。

什么是上下文衰退？

Redis Blog · 2025-12-19T00:00:00Z

语义缓存旨在重用先前计算的LLM工作，以减少重复推理、提高延迟和稳定吞吐量。高命中率可减少API调用并提高响应一致性，依赖于嵌入质量和相似性调整等因素。Redis LangCache管理语义缓存，提供嵌入、相似性控制和适应性TTL等功能，帮助团队优化缓存效果。优化语义缓存需综合去除语义噪声、选择领域特定嵌入模型和总结长文档等技术。

优化语义缓存的10种技术

Redis Blog · 2025-12-10T00:00:00Z

大型语言模型和AI代理正在改变技术互动方式。缓存技术对提升AI代理性能和降低成本至关重要。文章介绍了提示缓存和语义缓存两种方法：提示缓存通过重用已处理的提示加快响应速度，语义缓存通过存储查询与答案的语义相似性避免重复调用LLM。结合这两种方法可显著提高AI系统效率。

提示缓存与语义缓存：高性能AI代理的互补技术

Redis Blog · 2025-12-09T00:00:00Z

语义缓存是一种通过存储查询和响应的向量嵌入来增强检索的技术。本文记录了从失败到成功的过程，测试了七种双编码器模型，并优化了缓存设计，显著降低了错误率。最终，系统的假阳性率从99%降至3.8%，证明了缓存设计的重要性。

在增强检索生成（RAG）语义缓存中减少假阳性：银行案例研究

InfoQ · 2025-11-14T09:00:00Z

大型语言模型（LLMs）在处理非结构化文本方面表现优异，但在从结构化数据中提取信息时仍存在高成本和低效率的问题。本文提出了一种结合LLMs与Redis的学习代理系统，利用多代理架构和语义缓存策略，实现对复杂数据集的高效问答。该系统通过用户反馈和错误学习不断优化查询过程，提高准确性和响应速度，特别适用于金融和保险领域。