ATHAR:一份用于古典阿拉伯语到英语翻译的高质量且多样化的数据集

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了用于阿拉伯语机器阅读理解和文本检索的ArabicaQA和AraDPR数据集和模型,同时评估了大型语言模型在阿拉伯语问题回答中的表现。这些进展对阿拉伯语自然语言处理领域具有重要意义。

🎯

关键要点

  • ArabicaQA 是第一个用于阿拉伯语机器阅读理解和开放域问题回答的大规模数据集,包含 89095 个可回答和 3701 个无法回答的问题。
  • AraDPR 是第一个针对阿拉伯文本检索的密集段落检索模型,经过阿拉伯维基百科语料库的训练。
  • 大型语言模型在阿拉伯语问题回答中的表现进行了广泛的基准测试和批判性评估。
  • ArabicaQA、AraDPR 和语言模型基准测试为阿拉伯语自然语言处理领域带来了重要进展。
  • 数据集和代码对进一步研究公开可访问。
➡️

继续阅读