Supporting Information Retrieval for Low-Resource Languages: Establishing the Urdu MS MARCO Benchmark
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究首次提出了大规模乌尔都语信息检索数据集,并通过机器翻译处理MS MARCO数据集。经过微调的模型显著提升了乌尔都语检索性能,推动了多语言信息检索的发展。
🎯
关键要点
-
本研究首次提出了大规模乌尔都语信息检索数据集。
-
通过机器翻译处理MS MARCO数据集。
-
经过微调的模型显著提升了乌尔都语检索性能。
-
研究推动了多语言信息检索的发展。
-
强调了包容性检索技术的道德和社会重要性。
🏷️