多语言欧洲议会数据集用于信息检索偏倚分析
原文中文,约300字,阅读约需1分钟。发表于: 。Multi-EuP 是一个多语言基准数据集,由来自欧洲议会的 22K 多语言文档组成,涵盖 24 种语言。该数据集旨在研究多语言信息检索 (IR) 语境中的公平性,分析排名语境中的语言和人口统计偏差。它拥有一个真实的多语言语料库,涵盖了 24 种语言的主题翻译,以及跨语言的相关性判断。此外,它还提供与文档相关的丰富人口统计信息,方便研究人口统计偏差。我们报告了 Multi-EuP...
Multi-EuP是一个多语言基准数据集,由欧洲议会的22K多语言文档组成,涵盖24种语言。该数据集旨在研究多语言信息检索(IR)语境中的公平性,分析排名语境中的语言和人口统计偏差。研究人员报告了Multi-EuP在单语和多语信息检索基准测试方面的有效性,并对由分词策略选择引起的语言偏差进行了初步实验。