KazParC: 机器翻译用的哈萨克平行语料库

💡 原文中文,约1200字,阅读约需3分钟。
📝

内容提要

本文介绍了多个平行语料库的构建与应用,如波斯语-英语、英日、车臣语-俄语,强调其在机器翻译中的重要性和效果。研究表明,这些语料库能显著提高翻译质量和效率。

🎯

关键要点

  • 构建了最大波斯语-英语平行语料库,包含超过一百万句子对,实验表明其能提高机器翻译系统的效果。
  • 介绍了新的英日平行语料库JParaCrawl v3.0,包含超过2100万个平行句对,能提高机器翻译模型的准确性。
  • 使用双向方法从维基百科提取平行句子,结果显示该方法优于单向方法,提取的语料库包含约200,000个句子。
  • 通过神经机器翻译系统生成跨17种语言的平行释义语料库,结果表明生成的句子在语义和词汇丰富度上表现良好。
  • 介绍了车臣语-俄语和富拉语-英语的实验性平行数据,提供了一种成本效益高的众包收集方法。
  • 构建了日英商务会话平行语料库,旨在提高会话文本的机器翻译质量,并展示了基于该语料库训练的系统的优势。
  • 提出了ParaPhraser Plus数据集,旨在解决俄语释义生成领域小规模语料库的问题。
  • 展示了一种利用公开课程资料进行平行语料挖掘的框架,达到了96%的句子对齐F1分数,能提高课程讲稿翻译质量。

延伸问答

波斯语-英语平行语料库的规模和效果如何?

波斯语-英语平行语料库包含超过一百万句子对,实验表明其能显著提高机器翻译系统的效果。

JParaCrawl v3.0平行语料库的特点是什么?

JParaCrawl v3.0包含超过2100万个平行句对,能提高机器翻译模型的准确性,并将在未来公开发布。

双向方法提取平行句子的优势是什么?

双向方法优于单向方法,能更有效地提取平行句子,提取的语料库包含约200,000个句子。

如何通过众包收集平行语料库?

通过众包的方法收集平行语料库虽然牺牲了质量,但比雇佣专业翻译人员更具成本效益。

日英商务会话平行语料库的目的是什么?

日英商务会话平行语料库旨在提高会话文本的机器翻译质量,并展示基于该语料库训练的系统的优势。

ParaPhraser Plus数据集的作用是什么?

ParaPhraser Plus数据集旨在解决俄语释义生成领域小规模语料库的问题,促进文本生成的应用。

➡️

继续阅读