NLLB-E5：一个可扩展的多语言检索模型

本研究解决了现有多语言信息检索模型无法有效支持低资源语言（如印地语）的关键问题。提出的NLLB-E5模型采用了多语言检索的蒸馏方法，实现了零样本检索，同时无需多语言训练数据。在各种基准测试中的评估结果显示，该模型在处理多种语言时表现出色，推动了多语言信息获取领域的发展，并为全球数百万用户促进数字包容性。

预训练的多语言编码器在无监督文档级和句子级交叉语言信息检索方面性能不如基于跨语言单词嵌入的模型。经过监督学习优化后，在句子检索中取得最高准确率，并通过局部相关性匹配和对特定领域对比微调等方法提升排名质量。基于单语数据训练的检索模型存在“单语过度拟合”的现象，与针对特定目标语言的单语信息检索的交叉语言转移存在差异。