小红花·文摘

向量检索的理论极限

Finisky Garden ·

本研究提出了一种增强记忆的交叉编码器（CtrlCE），旨在解决个性化搜索中用户缺乏控制权的问题。该模型利用用户历史数据，允许用户控制个性化过程，从而提高搜索结果的相关性和多样性。研究表明，该方法在多个数据集上有效提升了个性化搜索的可控性。

Memory-Augmented Cross-Encoders for Controllable Personalized Search

BriefGPT - AI 论文速递 ·

Qdrant 2024 暑期代码计划 - Python 中的 ONNX 交叉编码器

Qdrant - Vector Database ·

提升向量搜索：使用PostgresML和LlamaIndex进行重新排序

Blog on LlamaIndex ·

本文介绍了一种基于交叉编码器的检索方法，利用CUR分解提高检索效率，特别是在k-NN查询中表现优越。研究表明，该方法在减少近似误差和提高检索率方面优于传统的BM25和双编码器方法。此外，提出的聚类嵌入学习（CEL）和协作相似度嵌入模型（CSE）在推荐系统中也显示出显著优势。

本文比较了双编码器和交叉编码器的差异，双编码器适合搜索，速度快且可扩展性强，交叉编码器适合分类和高精度排名，更准确。双编码器独立编码每个句子，将输入文本编码为固定长度向量，而交叉编码器同时对两个句子进行编码，能捕获句子之间的关系。在实践中，可以先使用双编码器减少候选数量，再使用交叉编码器获取最终结果。交叉编码器可用于语义相似性任务。通过两阶段检索和重新排序系统，可以在实践中使用双编码器和交叉编码器。

什么是句子嵌入、交叉编码器和重新排名

极道 ·

相似不等于相关：两种编码器破解向量数据库的真正短板

向量检索的理论极限

Memory-Augmented Cross-Encoders for Controllable Personalized Search

Qdrant 2024 暑期代码计划 - Python 中的 ONNX 交叉编码器

延迟交互模型，为什么是下一代RAG的标配？

提升向量搜索：使用PostgresML和LlamaIndex进行重新排序

基于交叉编码器的自适应检索与可扩展索引的 k-NN 搜索

什么是句子嵌入、交叉编码器和重新排名