BriefGPT - AI 论文速递 ·

基于交叉编码器的自适应检索与可扩展索引的 k-NN 搜索

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了一种基于交叉编码器的检索方法，利用CUR分解提高检索效率，特别是在k-NN查询中表现优越。研究表明，该方法在减少近似误差和提高检索率方面优于传统的BM25和双编码器方法。此外，提出的聚类嵌入学习（CEL）和协作相似度嵌入模型（CSE）在推荐系统中也显示出显著优势。

🎯

❓

该方法在k-NN查询中表现优越，尤其是在超过10个邻居搜索的情况下，能够减少近似误差并提高检索率。

CUR分解用于提高检索效率，使得基于交叉编码器的方法在计算成本可接受的情况下提供更好的检索结果。

CEL通过自动对用户和项目进行聚类，能够显著提高推荐系统的性能，尤其是在冷启动和低频用户问题上。

CSE利用用户-项目二分图中的协作关系，通过学习用户-项目关联和接近度来优化推荐效果。

研究表明，基于交叉编码器的方法在减少近似误差和提高检索率方面优于传统的BM25和双编码器方法。

该方法自适应地选择锚定项，以最小化检索近似误差，从而提高检索效率。

🏷️