小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
预填充与解码:大型语言模型推理阶段解析

本文讨论了大型语言模型(LLM)请求的两个阶段:预填充和解码。预填充阶段处理整个提示,受限于计算能力;解码阶段逐个生成令牌,受限于内存带宽。优化策略需根据这两个阶段的特性进行调整,以提高响应速度。使用Redis的语义缓存可以在缓存命中时绕过推理过程,消除预填充和解码的成本。

预填充与解码:大型语言模型推理阶段解析

Redis Blog
Redis Blog · 2026-04-28T00:00:00Z
大语言模型推理缓存完整指南

本文介绍了大语言模型中的推理缓存技术,强调其基本概念和重要性。推理缓存通过存储计算结果,减少重复计算,从而降低成本和延迟。主要有三种缓存类型:键值缓存(KV缓存)、前缀缓存和语义缓存。合理选择和组合这些缓存策略,可以显著提升生产系统的效率。

大语言模型推理缓存完整指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-04-17T12:00:46Z
语义缓存与路由:向量分类的两种强大模式

Redis的向量数据类型实现了毫秒级的无监督分类,支持语义缓存和语义路由优化。语义缓存通过向量数学判断缓存命中,语义路由则能快速在多标签中分类输入。这两种模式提升了系统性能,降低了成本,适用于多种应用场景。

语义缓存与路由:向量分类的两种强大模式

Redis Blog
Redis Blog · 2026-03-13T00:00:00Z
穆罕默德·阿基尔:生产环境中的pg_semantic_cache:标签、驱逐、监控与Python集成

本文介绍了PostgreSQL中的语义缓存,强调如何将其应用于生产环境。通过标签组织缓存条目、监控缓存健康状况和实施驱逐策略,确保数据的新鲜度和有效性。示例展示了如何在Python应用中集成语义缓存,以提高查询效率和降低API调用成本。

穆罕默德·阿基尔:生产环境中的pg_semantic_cache:标签、驱逐、监控与Python集成

Planet PostgreSQL
Planet PostgreSQL · 2026-03-03T04:20:12Z
使用Redis的LLM应用幂等性模式

在大型语言模型(LLM)API调用中,重试可能导致重复收费。幂等性确保相同操作多次执行结果一致,从而避免不必要的费用。本文探讨了幂等性模式、Redis原子命令的应用及语义缓存策略,以减少重复查询和成本。通过使用幂等性键和内容哈希,LLM应用能够有效管理API调用,降低开销。

使用Redis的LLM应用幂等性模式

Redis Blog
Redis Blog · 2026-02-11T00:00:00Z
LLM应用的语义缓存:降低成本40-80%,提升速度250倍

本文讨论了语义缓存的概念,旨在解决聊天机器人API费用过高的问题。通过使用向量嵌入,语义缓存能够基于查询的含义而非文本匹配,提高命中率,降低成本,加快响应速度。文章还提供了实现语义缓存的步骤和Python代码示例,强调其在客户支持和常见问题解答中的应用价值。

LLM应用的语义缓存:降低成本40-80%,提升速度250倍

Percona Database Performance Blog
Percona Database Performance Blog · 2026-02-04T15:03:29Z
你需要的不仅仅是向量数据库

运行大型语言模型(LLM)的成本高昂,企业每季度支出超过8万美元。向量数据库是RAG系统的主要解决方案,但仅提供检索功能。生产AI系统还需具备会话管理、语义缓存和安全性等功能。语义缓存通过匹配查询意义来减少冗余调用,从而显著降低成本。有效的生产AI系统需结合多种技术,而非单一依赖向量数据库。

你需要的不仅仅是向量数据库

Redis Blog
Redis Blog · 2026-02-03T00:00:00Z
介绍 langcache-embed-v3-small

langcache-embed-v3-small是一个专为低延迟语义缓存设计的嵌入模型,体积小、速度快,能更好地理解问题意图,减少缓存错误,提高效率,适合处理重复问题的系统。

介绍 langcache-embed-v3-small

Redis Blog
Redis Blog · 2026-01-30T00:00:00Z
如何优化机器学习推理成本和性能

构建大型语言模型(LLM)应用时,推理成本和响应时间可能超出预期。低批量推理的瓶颈主要在于内存带宽而非计算能力。文章讨论了推理成本、性能瓶颈及优化策略,强调语义缓存和Redis在降低成本和提升响应速度中的关键作用。

如何优化机器学习推理成本和性能

Redis Blog
Redis Blog · 2026-01-27T00:00:00Z
如何将RAG从原型扩展到生产环境

RAG系统从原型到生产需要不同架构,如双管道、混合检索和语义缓存,以提升性能和降低成本。在生产环境中,需增加数据存储层,保持索引同步,处理文档删除和缓存命中率。同时,有效的代理记忆架构对用户体验至关重要。

如何将RAG从原型扩展到生产环境

Redis Blog
Redis Blog · 2026-01-21T00:00:00Z
什么是语义缓存?

语义缓存通过识别相似查询来减少API调用,从而降低成本和响应延迟。它将查询转换为向量以查找相似的缓存响应。正确设置相似度阈值和选择合适的嵌入模型非常重要,错误配置可能导致错误答案。有效的缓存架构和监控能提升性能,适用于FAQ系统和客户支持。

什么是语义缓存?

Redis Blog
Redis Blog · 2026-01-21T00:00:00Z
面向更快、更智能LLM应用的语义缓存

语义缓存是一种存储语义信息的缓存方法,提高应用性能和响应速度。它可以加快数据处理和提供更相关的响应,特别适用于LLM应用。语义缓存可以与LLMs集成,广泛应用于自动客服、实时语言翻译和内容推荐等领域。实施语义缓存的最佳实践包括选择合适的基础设施、设计可扩展性和性能、确保准确性和一致性,并按步骤进行实施。

面向更快、更智能LLM应用的语义缓存

Redis Blog
Redis Blog · 2026-01-20T00:00:00Z
什么是上下文衰退?

大型语言模型(LLM)在处理长上下文时会出现准确性下降的问题,称为“上下文衰退”。斯坦福研究表明,信息位置影响准确性,位置越靠中间,准确率越低。上下文衰退导致响应质量下降、计算成本增加和架构复杂性提升。解决方案包括外部记忆架构和语义缓存,以保持固定上下文窗口并动态检索相关信息。

什么是上下文衰退?

Redis Blog
Redis Blog · 2025-12-19T00:00:00Z
优化语义缓存的10种技术

语义缓存旨在重用先前计算的LLM工作,以减少重复推理、提高延迟和稳定吞吐量。高命中率可减少API调用并提高响应一致性,依赖于嵌入质量和相似性调整等因素。Redis LangCache管理语义缓存,提供嵌入、相似性控制和适应性TTL等功能,帮助团队优化缓存效果。优化语义缓存需综合去除语义噪声、选择领域特定嵌入模型和总结长文档等技术。

优化语义缓存的10种技术

Redis Blog
Redis Blog · 2025-12-10T00:00:00Z
提示缓存与语义缓存:高性能AI代理的互补技术

大型语言模型和AI代理正在改变技术互动方式。缓存技术对提升AI代理性能和降低成本至关重要。文章介绍了提示缓存和语义缓存两种方法:提示缓存通过重用已处理的提示加快响应速度,语义缓存通过存储查询与答案的语义相似性避免重复调用LLM。结合这两种方法可显著提高AI系统效率。

提示缓存与语义缓存:高性能AI代理的互补技术

Redis Blog
Redis Blog · 2025-12-09T00:00:00Z
在增强检索生成(RAG)语义缓存中减少假阳性:银行案例研究

语义缓存是一种通过存储查询和响应的向量嵌入来增强检索的技术。本文记录了从失败到成功的过程,测试了七种双编码器模型,并优化了缓存设计,显著降低了错误率。最终,系统的假阳性率从99%降至3.8%,证明了缓存设计的重要性。

在增强检索生成(RAG)语义缓存中减少假阳性:银行案例研究

InfoQ
InfoQ · 2025-11-14T09:00:00Z
结合Redis的学习代理:基于反馈的上下文工程用于稳健的随机基础

大型语言模型(LLMs)在处理非结构化文本方面表现优异,但在从结构化数据中提取信息时仍存在高成本和低效率的问题。本文提出了一种结合LLMs与Redis的学习代理系统,利用多代理架构和语义缓存策略,实现对复杂数据集的高效问答。该系统通过用户反馈和错误学习不断优化查询过程,提高准确性和响应速度,特别适用于金融和保险领域。

结合Redis的学习代理:基于反馈的上下文工程用于稳健的随机基础

Redis Blog
Redis Blog · 2025-10-31T00:00:00Z
在高流量大型语言模型应用中构建推理缓存以节省成本

本文介绍了在高流量的大型语言模型应用中构建推理缓存的方法,以降低延迟和API成本。文章指出,重复查询会浪费时间和金钱,并提出了精确匹配缓存和语义缓存的实现方案。通过使用缓存,可以显著减少API调用次数,从而节省成本。精确缓存适用于完全相同的查询,而语义缓存则处理意义相似的查询,提升效率。

在高流量大型语言模型应用中构建推理缓存以节省成本

MachineLearningMastery.com
MachineLearningMastery.com · 2025-10-09T11:00:27Z
LangCache公开预览:获取全托管语义缓存服务

LangCache是Redis推出的全托管语义缓存服务,旨在减少AI应用中的冗余查询,降低成本和响应时间。通过缓存请求和响应,LangCache可提升速度,节省高达70%的费用,适用于高准确度的AI应用,如聊天机器人和RAG系统。用户可轻松创建和监控服务性能。

LangCache公开预览:获取全托管语义缓存服务

Redis Blog
Redis Blog · 2025-09-04T00:00:00Z
构建上下文启用的语义缓存系统与Redis

生成式AI正在推动企业创新,但面临高运营成本、响应慢和输出泛化等问题。为应对这些挑战,提出了上下文启用语义缓存(CESC),结合OpenAI模型和Redis,提供个性化、快速和高效的响应,从而显著提升企业生产力并降低成本。

构建上下文启用的语义缓存系统与Redis

Redis Blog
Redis Blog · 2025-08-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码