小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
向量检索的理论极限

这篇文章探讨了向量检索的理论极限,指出在高维嵌入中,单向量模型无法有效表示所有检索结果。研究表明,查询复杂度增加时,单向量模型表现显著下降,无法满足高风险领域需求。文章建议结合BM25和密集检索,以弥补不足,并强调多向量模型和交叉编码器的重要性。

向量检索的理论极限

Finisky Garden
Finisky Garden · 2026-04-15T09:35:47Z
向量检索的理论天花板

向量检索在RAG系统中应用广泛,但存在理论限制。研究显示,单向量模型在复杂查询时维度不足,表现不佳。BM25在词汇匹配中表现优异,但在语义匹配上不如向量模型。为提高检索效果,结合BM25与向量检索或采用Cross-encoder等多向量模型是必要的。

向量检索的理论天花板

Finisky Garden
Finisky Garden · 2026-04-15T09:31:47Z
混合搜索的优势:为什么您的RAG系统需要关键词搜索和向量搜索

混合搜索结合了BM25和向量检索,克服了纯向量和关键词搜索的不足,提升了检索准确性,适用于技术文档及法律医疗领域。通过双路径处理,优化查询结果,降低LLM成本,提高上下文质量。Redis支持混合搜索,简化操作,适合构建RAG系统和智能代理。

混合搜索的优势:为什么您的RAG系统需要关键词搜索和向量搜索

Redis Blog
Redis Blog · 2026-04-01T00:00:00Z
pg_textsearch 1.0:我们如何在Postgres页面上构建BM25搜索引擎

pg_textsearch是基于Postgres的BM25索引扩展,提供高效的全文搜索。它通过内存中的反向索引和块最大WAND算法优化查询速度,支持快速排名和并行构建索引。与ParadeDB相比,pg_textsearch在短查询上表现更佳,索引大小更小,但不支持短语查询和模糊匹配。

pg_textsearch 1.0:我们如何在Postgres页面上构建BM25搜索引擎

Timescale Blog
Timescale Blog · 2026-03-31T13:09:03Z
电子商务搜索中的稀疏嵌入微调 | 第1部分:稀疏嵌入为何优于BM25

本文讨论了稀疏嵌入在电子商务搜索中的优势,特别是相较于BM25的29%提升。稀疏嵌入通过保留单个词汇的信号,解决了密集嵌入模糊匹配的问题,确保了精确匹配。SPLADE模型通过学习相关词汇扩展查询,提升了搜索结果的准确性。后续文章将详细介绍训练和评估过程。

电子商务搜索中的稀疏嵌入微调 | 第1部分:稀疏嵌入为何优于BM25

Qdrant - Vector Database
Qdrant - Vector Database · 2026-03-09T00:00:00Z
RAG的全文搜索:精确层的向量搜索并不能可靠替代

向量搜索在人工智能中受到关注,但在检索增强生成(RAG)应用中,全文搜索提供更高精度。BM25算法通过词频、文档长度归一化和逆文档频率优化搜索结果。混合检索系统结合全文搜索与向量搜索,实现关键词精确匹配和语义回忆,提升检索质量。

RAG的全文搜索:精确层的向量搜索并不能可靠替代

Redis Blog
Redis Blog · 2026-02-23T00:00:00Z
Postgres中的Elasticsearch混合搜索(BM25 + 向量 + RRF)

Elasticsearch结合BM25和向量搜索实现混合搜索,而Postgres也支持这些功能,简化了数据管理,消除了同步问题,提高了搜索效率。

Postgres中的Elasticsearch混合搜索(BM25 + 向量 + RRF)

Timescale Blog
Timescale Blog · 2026-02-09T15:34:33Z
你不再需要Elasticsearch:BM25现在已在Postgres中实现

Postgres在搜索方面存在局限性,常需借助Elasticsearch等工具。BM25算法通过优化关键词频率、文档长度和相关性评分,提高搜索结果的准确性。结合BM25和向量搜索的混合方法,可以更好地满足AI代理和RAG管道的需求。pg_textsearch是一个开源解决方案,旨在提升Postgres的搜索能力。

你不再需要Elasticsearch:BM25现在已在Postgres中实现

Timescale Blog
Timescale Blog · 2025-12-23T21:24:39Z
在PostgreSQL中使用BM25算法提升AI应用的相关性

Tiger Data(前称Timescale)开源了pg_textsearch,这是一个基于BM25算法的PostgreSQL文本搜索扩展,旨在提升搜索相关性和性能,特别适用于AI应用。创始人Mike Freedman指出,开发者需要更好的搜索工具以满足AI搜索需求。pg_textsearch结合了关键词搜索和向量搜索,提升了搜索效率。

在PostgreSQL中使用BM25算法提升AI应用的相关性

The New Stack
The New Stack · 2025-12-22T19:00:58Z
Agentic Postgres:为Agentic应用提供快速分叉和AI准备功能的Postgres数据库

Tiger Data推出的Agentic Postgres是一款专为AI代理和开发者设计的Postgres数据库,支持快速分叉、MCP服务器和BM25向量搜索,提供CLI终端访问,旨在满足现代开发需求,实现快速实验和高效数据库操作。

Agentic Postgres:为Agentic应用提供快速分叉和AI准备功能的Postgres数据库

InfoQ
InfoQ · 2025-12-09T18:00:00Z
从ts_rank到BM25:在Postgres中引入pg_textsearch:真正的BM25排名与混合检索

pg_textsearch是一个Postgres扩展,旨在满足现代AI应用的需求,结合BM25排名和简单事务处理,提升检索质量,适用于RAG系统和混合搜索,支持向量搜索与关键词匹配的结合。

从ts_rank到BM25:在Postgres中引入pg_textsearch:真正的BM25排名与混合检索

Timescale Blog
Timescale Blog · 2025-10-23T14:00:53Z
提升Visual Studio Chat中的代码库意识

在最新的17.14.11版本中,Visual Studio引入了远程语义搜索,提升了代码搜索的精准度和效率。与传统的BM25关键词搜索不同,语义搜索能够理解查询含义,识别同义词和上下文,从而提供更相关的结果,帮助开发者更高效地查找代码,节省时间。

提升Visual Studio Chat中的代码库意识

Visual Studio Blog
Visual Studio Blog · 2025-08-14T12:00:59Z
我们在SIGIR 2025学到的东西

SIGIR会议汇聚全球信息检索领域专家,分享最新研究。Jina AI展示了延迟分块的研究,讨论了信息检索系统的鲁棒性及LLM应用。专家们探讨了BM25算法的历史及AI在科学研究中的未来,促进了热烈讨论。

我们在SIGIR 2025学到的东西

Jina AI
Jina AI · 2025-08-11T18:14:55Z
miniCOIL:通往可用稀疏神经检索的道路

miniCOIL是一种轻量级的稀疏神经检索模型,旨在结合BM25的优点,克服传统稀疏检索的局限性。该模型通过语义理解提升检索精度,特别适用于文档搜索,测试结果显示其在多个领域略优于BM25,展现了稀疏神经检索的潜力。

miniCOIL:通往可用稀疏神经检索的道路

Qdrant - Vector Database
Qdrant - Vector Database · 2025-05-12T21:00:00Z

本研究提出了一种基于检索增强生成的生物医学问答系统,解决了检索与生成的效率问题。评估不同检索策略后,发现BM25结合MedCPT在准确性、召回率和响应时间上实现了最佳平衡,具备良好的效率和可扩展性,并提供了开源代码以便重现和扩展。

Efficient and Reproducible Biomedical Question Answering System: A Retrieval-Augmented Generation Approach

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
通过Astra DB混合搜索提升Python搜索相关性

Astra DB现已支持混合搜索,结合向量搜索与BM25关键词搜索,提升搜索准确性达45%。该功能通过重排序模型优化结果,适用于Python应用,增强检索相关性。

通过Astra DB混合搜索提升Python搜索相关性

DEV Community
DEV Community · 2025-04-30T00:44:04Z
检索指标揭秘:从BM25基线到EM@5与答案F1

检索增强生成(RAG)依赖于有效的检索。文章讨论了评估检索效果的方法,包括BM25、EM@k和F1指标。BM25基于关键词检索,EM@k用于判断前k个结果中是否有正确答案,而F1衡量生成答案与真实答案的重叠度。这些指标有助于优化检索系统,提升生成模型的性能。

检索指标揭秘:从BM25基线到EM@5与答案F1

DEV Community
DEV Community · 2025-04-29T10:38:04Z

本研究提出了RusBEIR,这是一个针对俄语的信息检索模型基准,强调了预处理的重要性。验证了BM25作为强基线,神经模型在大多数数据集上表现优越,但在长文档检索中受限于输入大小。RusBEIR为俄语信息检索研究提供了统一框架。

建立俄罗斯基准以评估信息检索模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究探讨了语言模型重排名器在检索增强生成任务中的表现不足,特别是在处理语义信息方面的局限性。提出了一种基于BM25的新分离度量,揭示了重排名器在词汇不相似性方面的错误,并探讨了提升其性能的方法,强调了对更具对抗性评估数据集的需求。

Language Model Re-rankers are Guided by Lexical Similarities

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

本研究针对BEIR基准仅支持英语的问题,提出了BEIR-NL,通过自动翻译评估多种多语言模型。结果表明,BM25方法具有竞争力,但大型密集模型表现更优。

BEIR-NL:荷兰语的信息检索零-shot基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码