使用OKAPI BM25和交叉编码器集成的波兰文本检索
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
我们推出了波兰信息检索基准(PIRB),包含41个波兰语检索任务和10个新数据集。评估了20多个模型,并引入稀疏-密集混合检索器,通过三步训练提升效果。新训练的文本编码器使密集模型优于现有方案,混合方法进一步提高性能。
🎯
关键要点
- 推出波兰信息检索基准(PIRB),包含41个波兰语检索任务和10个新数据集。
- 基准涵盖医学、法律、商业、物理学和语言学等多样主题的未公开数据集。
- 对20多个密集和稀疏检索模型进行了广泛评估,包括训练的基准模型和其他现有方法。
- 引入稀疏-密集混合检索器,通过知识蒸馏、有监督微调和轻量级重新评分模型的三步训练提升效果。
- 为波兰语训练的新文本编码器使密集模型优于现有方案,混合方法进一步提高性能。
➡️