使用OKAPI BM25和交叉编码器集成的波兰文本检索

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

我们推出了波兰信息检索基准(PIRB),包含41个波兰语检索任务和10个新数据集。评估了20多个模型,并引入稀疏-密集混合检索器,通过三步训练提升效果。新训练的文本编码器使密集模型优于现有方案,混合方法进一步提高性能。

🎯

关键要点

  • 推出波兰信息检索基准(PIRB),包含41个波兰语检索任务和10个新数据集。
  • 基准涵盖医学、法律、商业、物理学和语言学等多样主题的未公开数据集。
  • 对20多个密集和稀疏检索模型进行了广泛评估,包括训练的基准模型和其他现有方法。
  • 引入稀疏-密集混合检索器,通过知识蒸馏、有监督微调和轻量级重新评分模型的三步训练提升效果。
  • 为波兰语训练的新文本编码器使密集模型优于现有方案,混合方法进一步提高性能。
➡️

继续阅读