Fineweb-Edu-Ar:支持阿拉伯语小型语言模型的机器翻译语料库

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该论文介绍了开普敦大学在WMT22竞赛中提交的多语种翻译模型,支持英语与8种南部/东南部非洲语言的翻译。研究采用多种低资源机器翻译技术,结果表明这些技术在缺乏双语数据时效果显著。

🎯

关键要点

  • 该论文介绍了开普敦大学在WMT22竞赛中提交的多语种翻译模型。
  • 该模型支持英语与8种南部/东南部非洲语言之间的翻译。
  • 研究采用了多种低资源机器翻译技术,包括重叠BPE、回译和合成训练数据生成。
  • 在训练过程中增加更多的翻译方向,提高了翻译效果。
  • 研究结果表明,这些技术在缺乏双语数据时效果显著。
➡️

继续阅读