小红花·文摘 - 小红花技术领袖俱乐部

Ahsan Hadi: Hybrid Search in PostgreSQL: BM25, Sparse Vectors, and Reciprocal Rank Fusion

Ahsan Hadi: Hybrid Search in PostgreSQL: BM25, Sparse Vectors, and Reciprocal Rank Fusion

Planet PostgreSQL ·

本文讨论了BM25算法在全文检索中的应用，分析了其公式、参数及与TF-IDF的区别。BM25通过饱和TF和长度归一解决了传统TF在长文档中的失效问题，并提及了Lucene和Elasticsearch的实现细节，强调了BM25在召回和可解释性方面的重要性。此外，文章探讨了BM25与学习排序的关系及其在实际应用中的工程边界。

【全文检索引擎】BM25 与 Similarity：公式如何落到 Lucene

土法炼钢兴趣小组的博客 ·

本文讨论了在Elasticsearch和Lucene中结合稀疏BM25与稠密kNN进行混合检索的策略，重点分析了两种索引的共存、查询策略及其对性能的影响。混合检索需同时利用BM25和kNN信号，以确保候选文档的一致性和可比性。文章还探讨了写入路径、代价模型及与专用向量引擎的边界问题，强调了统一Segment生命周期的重要性。

【全文检索引擎】混合检索边界：BM25 与 dense_vector

土法炼钢兴趣小组的博客 ·

本文探讨了全文检索引擎的架构，重点分析了Lucene和Elasticsearch的设计与实现，包括倒排索引、文档模型、分析链、BM25打分机制和近实时刷新等关键概念，适合搜索引擎工程师和研究生深入理解搜索系统的内部运作。

【全文检索引擎】Lucene · BM25 · Segment · Elasticsearch NRT

土法炼钢兴趣小组的博客 ·

在RAG中实现混合语义-词汇搜索

在RAG中实现混合语义-词汇搜索

MachineLearningMastery.com ·

向量检索的理论极限

向量检索的理论极限

Finisky Garden ·

向量检索的理论天花板

向量检索的理论天花板

Finisky Garden ·

混合搜索的优势：为什么您的RAG系统需要关键词搜索和向量搜索

混合搜索的优势：为什么您的RAG系统需要关键词搜索和向量搜索

Redis Blog ·

pg_textsearch 1.0：我们如何在Postgres页面上构建BM25搜索引擎

pg_textsearch 1.0：我们如何在Postgres页面上构建BM25搜索引擎

Timescale Blog ·

电子商务搜索中的稀疏嵌入微调 | 第1部分：稀疏嵌入为何优于BM25

电子商务搜索中的稀疏嵌入微调 | 第1部分：稀疏嵌入为何优于BM25

Qdrant - Vector Database ·

RAG的全文搜索：精确层的向量搜索并不能可靠替代

RAG的全文搜索：精确层的向量搜索并不能可靠替代

Redis Blog ·

Postgres中的Elasticsearch混合搜索（BM25 + 向量 + RRF）

Postgres中的Elasticsearch混合搜索（BM25 + 向量 + RRF）

Timescale Blog ·

你不再需要Elasticsearch：BM25现在已在Postgres中实现

你不再需要Elasticsearch：BM25现在已在Postgres中实现

Timescale Blog ·

在PostgreSQL中使用BM25算法提升AI应用的相关性

在PostgreSQL中使用BM25算法提升AI应用的相关性

The New Stack ·

Agentic Postgres：为Agentic应用提供快速分叉和AI准备功能的Postgres数据库

Agentic Postgres：为Agentic应用提供快速分叉和AI准备功能的Postgres数据库

InfoQ ·

从ts_rank到BM25：在Postgres中引入pg_textsearch：真正的BM25排名与混合检索

从ts_rank到BM25：在Postgres中引入pg_textsearch：真正的BM25排名与混合检索

Timescale Blog ·

提升Visual Studio Chat中的代码库意识

提升Visual Studio Chat中的代码库意识

Visual Studio Blog ·

我们在SIGIR 2025学到的东西

我们在SIGIR 2025学到的东西

Jina AI ·

miniCOIL：通往可用稀疏神经检索的道路

miniCOIL：通往可用稀疏神经检索的道路

Qdrant - Vector Database ·

本研究提出了一种基于检索增强生成的生物医学问答系统，解决了检索与生成的效率问题。评估不同检索策略后，发现BM25结合MedCPT在准确性、召回率和响应时间上实现了最佳平衡，具备良好的效率和可扩展性，并提供了开源代码以便重现和扩展。

Efficient and Reproducible Biomedical Question Answering System: A Retrieval-Augmented Generation Approach

BriefGPT - AI 论文速递 ·