极道 ·

相似不等于相关：两种编码器破解向量数据库的真正短板

💡 原文中文，约6200字，阅读约需15分钟。

📝

内容提要

向量搜索并不等于找到正确答案。现代搜索系统结合双编码器和交叉编码器，前者用于快速召回候选文档，后者用于精确排序。有效的搜索系统需兼顾速度与准确性，以提升搜索质量。

🎯

🔎

双编码器和交叉编码器在现代搜索系统中扮演着不同的角色。双编码器负责快速召回候选文档，适合处理大规模数据，强调速度和召回率。而交叉编码器则专注于精确排序，能够更好地理解问题与文档之间的关系。了解这两者的分工，有助于优化搜索系统的整体性能。

向量搜索虽然能快速找到相似内容，但并不等同于找到正确答案。许多情况下，返回的结果可能在语义上接近，但实际帮助有限。因此，在设计搜索系统时，必须重视候选文档的质量和排序，确保最终结果真正满足用户需求。

在评估搜索系统时，不能仅依赖结果的表面质量。应关注召回率、精确率、平均倒数排名等多个指标，以全面了解系统的表现。特别是在检索增强生成系统中，检索器的表现直接影响生成答案的质量，需谨慎分析各个阶段的效果。

❓

向量搜索找到的是相似内容，而不一定是正确答案，可能存在语义接近但实际无用的结果。

双编码器用于快速召回候选文档，交叉编码器用于精确排序，前者速度快但缺乏深度交互，后者准确度高但计算成本高。

评估搜索系统时需关注召回率、精确率、平均倒数排名、延迟等多个指标。

双编码器将问题和文档分开编码，文档向量可以提前计算，减少了实时计算的负担。

交叉编码器能同时处理问题和文档，直接比较词汇，能够更准确地判断文档是否真正回答了问题。

当需要处理几百万篇文档、要求低延迟检索时，适合使用双编码器。

🏷️