小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
人工智能中的上下文窗口:为何每个令牌都是预算决策

Redis Iris 提供实时上下文管理,优化大语言模型(LLM)的性能。通过精简上下文窗口,减少不必要的令牌使用,降低成本并提高推理质量。使用 LangCache 进行语义缓存,显著降低推理费用,Redis 的快速存储确保上下文检索高效,适用于多种应用场景。

人工智能中的上下文窗口:为何每个令牌都是预算决策

Redis Blog
Redis Blog · 2026-06-10T00:00:00Z
智能系统中的缓存:内部、分布式和语义

本文讨论了智能系统中缓存的重要性,重点介绍了Java应用的内部、分布式和语义缓存实现。内容包括使用Caffeine进行低延迟的内部缓存,利用Redisson和Valkey进行分布式缓存,以及通过向量相似性搜索实现语义缓存,以降低延迟和成本。

智能系统中的缓存:内部、分布式和语义

insidejava
insidejava · 2026-05-18T00:00:00Z
大语言模型速度基准:指标与基础设施指南

本文讨论了大语言模型(LLM)推理速度的关键指标及其对用户体验的影响,强调选择合适模型和优化指标的重要性。介绍了TTFT、TTFAT、输出速度等六个性能指标,并提到语义缓存技术可以减少推理瓶颈,提高响应速度和降低成本。Redis作为实时数据平台,支持语义缓存和向量搜索,适合构建高效的GenAI应用。

大语言模型速度基准:指标与基础设施指南

Redis Blog
Redis Blog · 2026-05-10T00:00:00Z
上下文修剪:在不损失质量的情况下减少LLM令牌

上下文修剪是从大型语言模型(LLM)输入中去除低价值内容,以降低成本并提高输出质量。它属于提示压缩,旨在减少输入长度和提高处理效率。修剪方法包括标记级、句子级和基于注意力的修剪。研究表明,适度修剪可以改善LLM性能,尤其与语义缓存结合使用时效果更佳。

上下文修剪:在不损失质量的情况下减少LLM令牌

Redis Blog
Redis Blog · 2026-05-09T00:00:00Z

文章讨论了Percona的“与AI共建”竞赛,旨在推动创新,以及Redis的语义缓存技术,该技术能显著降低成本并提高应用速度。

我会功夫

Percona Database Performance Blog
Percona Database Performance Blog · 2026-05-04T12:43:46Z
预填充与解码:大型语言模型推理阶段解析

本文讨论了大型语言模型(LLM)请求的两个阶段:预填充和解码。预填充阶段处理整个提示,受限于计算能力;解码阶段逐个生成令牌,受限于内存带宽。优化策略需根据这两个阶段的特性进行调整,以提高响应速度。使用Redis的语义缓存可以在缓存命中时绕过推理过程,消除预填充和解码的成本。

预填充与解码:大型语言模型推理阶段解析

Redis Blog
Redis Blog · 2026-04-28T00:00:00Z
大语言模型推理缓存完整指南

本文介绍了大语言模型中的推理缓存技术,强调其基本概念和重要性。推理缓存通过存储计算结果,减少重复计算,从而降低成本和延迟。主要有三种缓存类型:键值缓存(KV缓存)、前缀缓存和语义缓存。合理选择和组合这些缓存策略,可以显著提升生产系统的效率。

大语言模型推理缓存完整指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-04-17T12:00:46Z
语义缓存与路由:向量分类的两种强大模式

Redis的向量数据类型实现了毫秒级的无监督分类,支持语义缓存和语义路由优化。语义缓存通过向量数学判断缓存命中,语义路由则能快速在多标签中分类输入。这两种模式提升了系统性能,降低了成本,适用于多种应用场景。

语义缓存与路由:向量分类的两种强大模式

Redis Blog
Redis Blog · 2026-03-13T00:00:00Z
穆罕默德·阿基尔:生产环境中的pg_semantic_cache:标签、驱逐、监控与Python集成

本文介绍了PostgreSQL中的语义缓存,强调如何将其应用于生产环境。通过标签组织缓存条目、监控缓存健康状况和实施驱逐策略,确保数据的新鲜度和有效性。示例展示了如何在Python应用中集成语义缓存,以提高查询效率和降低API调用成本。

穆罕默德·阿基尔:生产环境中的pg_semantic_cache:标签、驱逐、监控与Python集成

Planet PostgreSQL
Planet PostgreSQL · 2026-03-03T04:20:12Z
使用Redis的LLM应用幂等性模式

在大型语言模型(LLM)API调用中,重试可能导致重复收费。幂等性确保相同操作多次执行结果一致,从而避免不必要的费用。本文探讨了幂等性模式、Redis原子命令的应用及语义缓存策略,以减少重复查询和成本。通过使用幂等性键和内容哈希,LLM应用能够有效管理API调用,降低开销。

使用Redis的LLM应用幂等性模式

Redis Blog
Redis Blog · 2026-02-11T00:00:00Z
LLM应用的语义缓存:降低成本40-80%,提升速度250倍

本文讨论了语义缓存的概念,旨在解决聊天机器人API费用过高的问题。通过使用向量嵌入,语义缓存能够基于查询的含义而非文本匹配,提高命中率,降低成本,加快响应速度。文章还提供了实现语义缓存的步骤和Python代码示例,强调其在客户支持和常见问题解答中的应用价值。

LLM应用的语义缓存:降低成本40-80%,提升速度250倍

Percona Database Performance Blog
Percona Database Performance Blog · 2026-02-04T15:03:29Z
你需要的不仅仅是向量数据库

运行大型语言模型(LLM)的成本高昂,企业每季度支出超过8万美元。向量数据库是RAG系统的主要解决方案,但仅提供检索功能。生产AI系统还需具备会话管理、语义缓存和安全性等功能。语义缓存通过匹配查询意义来减少冗余调用,从而显著降低成本。有效的生产AI系统需结合多种技术,而非单一依赖向量数据库。

你需要的不仅仅是向量数据库

Redis Blog
Redis Blog · 2026-02-03T00:00:00Z
介绍 langcache-embed-v3-small

langcache-embed-v3-small是一个专为低延迟语义缓存设计的嵌入模型,体积小、速度快,能更好地理解问题意图,减少缓存错误,提高效率,适合处理重复问题的系统。

介绍 langcache-embed-v3-small

Redis Blog
Redis Blog · 2026-01-30T00:00:00Z
如何优化机器学习推理成本和性能

构建大型语言模型(LLM)应用时,推理成本和响应时间可能超出预期。低批量推理的瓶颈主要在于内存带宽而非计算能力。文章讨论了推理成本、性能瓶颈及优化策略,强调语义缓存和Redis在降低成本和提升响应速度中的关键作用。

如何优化机器学习推理成本和性能

Redis Blog
Redis Blog · 2026-01-27T00:00:00Z
如何将RAG从原型扩展到生产环境

RAG系统从原型到生产需要不同架构,如双管道、混合检索和语义缓存,以提升性能和降低成本。在生产环境中,需增加数据存储层,保持索引同步,处理文档删除和缓存命中率。同时,有效的代理记忆架构对用户体验至关重要。

如何将RAG从原型扩展到生产环境

Redis Blog
Redis Blog · 2026-01-21T00:00:00Z
什么是语义缓存?

语义缓存通过识别相似查询来减少API调用,从而降低成本和响应延迟。它将查询转换为向量以查找相似的缓存响应。正确设置相似度阈值和选择合适的嵌入模型非常重要,错误配置可能导致错误答案。有效的缓存架构和监控能提升性能,适用于FAQ系统和客户支持。

什么是语义缓存?

Redis Blog
Redis Blog · 2026-01-21T00:00:00Z
面向更快、更智能LLM应用的语义缓存

语义缓存是一种存储语义信息的缓存方法,提高应用性能和响应速度。它可以加快数据处理和提供更相关的响应,特别适用于LLM应用。语义缓存可以与LLMs集成,广泛应用于自动客服、实时语言翻译和内容推荐等领域。实施语义缓存的最佳实践包括选择合适的基础设施、设计可扩展性和性能、确保准确性和一致性,并按步骤进行实施。

面向更快、更智能LLM应用的语义缓存

Redis Blog
Redis Blog · 2026-01-20T00:00:00Z
什么是上下文衰退?

大型语言模型(LLM)在处理长上下文时会出现准确性下降的问题,称为“上下文衰退”。斯坦福研究表明,信息位置影响准确性,位置越靠中间,准确率越低。上下文衰退导致响应质量下降、计算成本增加和架构复杂性提升。解决方案包括外部记忆架构和语义缓存,以保持固定上下文窗口并动态检索相关信息。

什么是上下文衰退?

Redis Blog
Redis Blog · 2025-12-19T00:00:00Z
优化语义缓存的10种技术

语义缓存旨在重用先前计算的LLM工作,以减少重复推理、提高延迟和稳定吞吐量。高命中率可减少API调用并提高响应一致性,依赖于嵌入质量和相似性调整等因素。Redis LangCache管理语义缓存,提供嵌入、相似性控制和适应性TTL等功能,帮助团队优化缓存效果。优化语义缓存需综合去除语义噪声、选择领域特定嵌入模型和总结长文档等技术。

优化语义缓存的10种技术

Redis Blog
Redis Blog · 2025-12-10T00:00:00Z
提示缓存与语义缓存:高性能AI代理的互补技术

大型语言模型和AI代理正在改变技术互动方式。缓存技术对提升AI代理性能和降低成本至关重要。文章介绍了提示缓存和语义缓存两种方法:提示缓存通过重用已处理的提示加快响应速度,语义缓存通过存储查询与答案的语义相似性避免重复调用LLM。结合这两种方法可显著提高AI系统效率。

提示缓存与语义缓存:高性能AI代理的互补技术

Redis Blog
Redis Blog · 2025-12-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码