小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在RAG中实现混合语义-词汇搜索

本文介绍了在RAG系统中实现混合语义-词汇搜索的方法,结合BM25词汇搜索与语义搜索,通过互惠排名融合(RRF)进行整合。混合搜索策略有效提升了检索效果,提供了Python实现的详细步骤,包括库的安装、数据集加载、BM25和语义搜索的独立执行及结果融合。通过示例查询,展示了混合搜索的优势。

在RAG中实现混合语义-词汇搜索

MachineLearningMastery.com
MachineLearningMastery.com · 2026-05-25T12:00:35Z
向量检索的理论极限

这篇文章探讨了向量检索的理论极限,指出在高维嵌入中,单向量模型无法有效表示所有检索结果。研究表明,查询复杂度增加时,单向量模型表现显著下降,无法满足高风险领域需求。文章建议结合BM25和密集检索,以弥补不足,并强调多向量模型和交叉编码器的重要性。

向量检索的理论极限

Finisky Garden
Finisky Garden · 2026-04-15T09:35:47Z
向量检索的理论天花板

向量检索在RAG系统中应用广泛,但存在理论限制。研究显示,单向量模型在复杂查询时维度不足,表现不佳。BM25在词汇匹配中表现优异,但在语义匹配上不如向量模型。为提高检索效果,结合BM25与向量检索或采用Cross-encoder等多向量模型是必要的。

向量检索的理论天花板

Finisky Garden
Finisky Garden · 2026-04-15T09:31:47Z
混合搜索的优势:为什么您的RAG系统需要关键词搜索和向量搜索

混合搜索结合了BM25和向量检索,克服了纯向量和关键词搜索的不足,提升了检索准确性,适用于技术文档及法律医疗领域。通过双路径处理,优化查询结果,降低LLM成本,提高上下文质量。Redis支持混合搜索,简化操作,适合构建RAG系统和智能代理。

混合搜索的优势:为什么您的RAG系统需要关键词搜索和向量搜索

Redis Blog
Redis Blog · 2026-04-01T00:00:00Z
pg_textsearch 1.0:我们如何在Postgres页面上构建BM25搜索引擎

pg_textsearch是基于Postgres的BM25索引扩展,提供高效的全文搜索。它通过内存中的反向索引和块最大WAND算法优化查询速度,支持快速排名和并行构建索引。与ParadeDB相比,pg_textsearch在短查询上表现更佳,索引大小更小,但不支持短语查询和模糊匹配。

pg_textsearch 1.0:我们如何在Postgres页面上构建BM25搜索引擎

Timescale Blog
Timescale Blog · 2026-03-31T13:09:03Z
电子商务搜索中的稀疏嵌入微调 | 第1部分:稀疏嵌入为何优于BM25

本文讨论了稀疏嵌入在电子商务搜索中的优势,特别是相较于BM25的29%提升。稀疏嵌入通过保留单个词汇的信号,解决了密集嵌入模糊匹配的问题,确保了精确匹配。SPLADE模型通过学习相关词汇扩展查询,提升了搜索结果的准确性。后续文章将详细介绍训练和评估过程。

电子商务搜索中的稀疏嵌入微调 | 第1部分:稀疏嵌入为何优于BM25

Qdrant - Vector Database
Qdrant - Vector Database · 2026-03-09T00:00:00Z
RAG的全文搜索:精确层的向量搜索并不能可靠替代

向量搜索在人工智能中受到关注,但在检索增强生成(RAG)应用中,全文搜索提供更高精度。BM25算法通过词频、文档长度归一化和逆文档频率优化搜索结果。混合检索系统结合全文搜索与向量搜索,实现关键词精确匹配和语义回忆,提升检索质量。

RAG的全文搜索:精确层的向量搜索并不能可靠替代

Redis Blog
Redis Blog · 2026-02-23T00:00:00Z
Postgres中的Elasticsearch混合搜索(BM25 + 向量 + RRF)

Elasticsearch结合BM25和向量搜索实现混合搜索,而Postgres也支持这些功能,简化了数据管理,消除了同步问题,提高了搜索效率。

Postgres中的Elasticsearch混合搜索(BM25 + 向量 + RRF)

Timescale Blog
Timescale Blog · 2026-02-09T15:34:33Z
你不再需要Elasticsearch:BM25现在已在Postgres中实现

Postgres在搜索方面存在局限性,常需借助Elasticsearch等工具。BM25算法通过优化关键词频率、文档长度和相关性评分,提高搜索结果的准确性。结合BM25和向量搜索的混合方法,可以更好地满足AI代理和RAG管道的需求。pg_textsearch是一个开源解决方案,旨在提升Postgres的搜索能力。

你不再需要Elasticsearch:BM25现在已在Postgres中实现

Timescale Blog
Timescale Blog · 2025-12-23T21:24:39Z
在PostgreSQL中使用BM25算法提升AI应用的相关性

Tiger Data(前称Timescale)开源了pg_textsearch,这是一个基于BM25算法的PostgreSQL文本搜索扩展,旨在提升搜索相关性和性能,特别适用于AI应用。创始人Mike Freedman指出,开发者需要更好的搜索工具以满足AI搜索需求。pg_textsearch结合了关键词搜索和向量搜索,提升了搜索效率。

在PostgreSQL中使用BM25算法提升AI应用的相关性

The New Stack
The New Stack · 2025-12-22T19:00:58Z
Agentic Postgres:为Agentic应用提供快速分叉和AI准备功能的Postgres数据库

Tiger Data推出的Agentic Postgres是一款专为AI代理和开发者设计的Postgres数据库,支持快速分叉、MCP服务器和BM25向量搜索,提供CLI终端访问,旨在满足现代开发需求,实现快速实验和高效数据库操作。

Agentic Postgres:为Agentic应用提供快速分叉和AI准备功能的Postgres数据库

InfoQ
InfoQ · 2025-12-09T18:00:00Z
从ts_rank到BM25:在Postgres中引入pg_textsearch:真正的BM25排名与混合检索

pg_textsearch是一个Postgres扩展,旨在满足现代AI应用的需求,结合BM25排名和简单事务处理,提升检索质量,适用于RAG系统和混合搜索,支持向量搜索与关键词匹配的结合。

从ts_rank到BM25:在Postgres中引入pg_textsearch:真正的BM25排名与混合检索

Timescale Blog
Timescale Blog · 2025-10-23T14:00:53Z
提升Visual Studio Chat中的代码库意识

在最新的17.14.11版本中,Visual Studio引入了远程语义搜索,提升了代码搜索的精准度和效率。与传统的BM25关键词搜索不同,语义搜索能够理解查询含义,识别同义词和上下文,从而提供更相关的结果,帮助开发者更高效地查找代码,节省时间。

提升Visual Studio Chat中的代码库意识

Visual Studio Blog
Visual Studio Blog · 2025-08-14T12:00:59Z
我们在SIGIR 2025学到的东西

SIGIR会议汇聚全球信息检索领域专家,分享最新研究。Jina AI展示了延迟分块的研究,讨论了信息检索系统的鲁棒性及LLM应用。专家们探讨了BM25算法的历史及AI在科学研究中的未来,促进了热烈讨论。

我们在SIGIR 2025学到的东西

Jina AI
Jina AI · 2025-08-11T18:14:55Z
miniCOIL:通往可用稀疏神经检索的道路

miniCOIL是一种轻量级的稀疏神经检索模型,旨在结合BM25的优点,克服传统稀疏检索的局限性。该模型通过语义理解提升检索精度,特别适用于文档搜索,测试结果显示其在多个领域略优于BM25,展现了稀疏神经检索的潜力。

miniCOIL:通往可用稀疏神经检索的道路

Qdrant - Vector Database
Qdrant - Vector Database · 2025-05-12T21:00:00Z

本研究提出了一种基于检索增强生成的生物医学问答系统,解决了检索与生成的效率问题。评估不同检索策略后,发现BM25结合MedCPT在准确性、召回率和响应时间上实现了最佳平衡,具备良好的效率和可扩展性,并提供了开源代码以便重现和扩展。

Efficient and Reproducible Biomedical Question Answering System: A Retrieval-Augmented Generation Approach

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
通过Astra DB混合搜索提升Python搜索相关性

Astra DB现已支持混合搜索,结合向量搜索与BM25关键词搜索,提升搜索准确性达45%。该功能通过重排序模型优化结果,适用于Python应用,增强检索相关性。

通过Astra DB混合搜索提升Python搜索相关性

DEV Community
DEV Community · 2025-04-30T00:44:04Z
检索指标揭秘:从BM25基线到EM@5与答案F1

检索增强生成(RAG)依赖于有效的检索。文章讨论了评估检索效果的方法,包括BM25、EM@k和F1指标。BM25基于关键词检索,EM@k用于判断前k个结果中是否有正确答案,而F1衡量生成答案与真实答案的重叠度。这些指标有助于优化检索系统,提升生成模型的性能。

检索指标揭秘:从BM25基线到EM@5与答案F1

DEV Community
DEV Community · 2025-04-29T10:38:04Z

本研究提出了RusBEIR,这是一个针对俄语的信息检索模型基准,强调了预处理的重要性。验证了BM25作为强基线,神经模型在大多数数据集上表现优越,但在长文档检索中受限于输入大小。RusBEIR为俄语信息检索研究提供了统一框架。

建立俄罗斯基准以评估信息检索模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究探讨了语言模型重排名器在检索增强生成任务中的表现不足,特别是在处理语义信息方面的局限性。提出了一种基于BM25的新分离度量,揭示了重排名器在词汇不相似性方面的错误,并探讨了提升其性能的方法,强调了对更具对抗性评估数据集的需求。

Language Model Re-rankers are Guided by Lexical Similarities

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码