KazParC: 机器翻译用的哈萨克平行语料库
💡
原文中文,约1200字,阅读约需3分钟。
📝
内容提要
本文介绍了多个平行语料库的构建与应用,如波斯语-英语、英日、车臣语-俄语,强调其在机器翻译中的重要性和效果。研究表明,这些语料库能显著提高翻译质量和效率。
🎯
关键要点
- 构建了最大波斯语-英语平行语料库,包含超过一百万句子对,实验表明其能提高机器翻译系统的效果。
- 介绍了新的英日平行语料库JParaCrawl v3.0,包含超过2100万个平行句对,能提高机器翻译模型的准确性。
- 使用双向方法从维基百科提取平行句子,结果显示该方法优于单向方法,提取的语料库包含约200,000个句子。
- 通过神经机器翻译系统生成跨17种语言的平行释义语料库,结果表明生成的句子在语义和词汇丰富度上表现良好。
- 介绍了车臣语-俄语和富拉语-英语的实验性平行数据,提供了一种成本效益高的众包收集方法。
- 构建了日英商务会话平行语料库,旨在提高会话文本的机器翻译质量,并展示了基于该语料库训练的系统的优势。
- 提出了ParaPhraser Plus数据集,旨在解决俄语释义生成领域小规模语料库的问题。
- 展示了一种利用公开课程资料进行平行语料挖掘的框架,达到了96%的句子对齐F1分数,能提高课程讲稿翻译质量。
❓
延伸问答
波斯语-英语平行语料库的规模和效果如何?
波斯语-英语平行语料库包含超过一百万句子对,实验表明其能显著提高机器翻译系统的效果。
JParaCrawl v3.0平行语料库的特点是什么?
JParaCrawl v3.0包含超过2100万个平行句对,能提高机器翻译模型的准确性,并将在未来公开发布。
双向方法提取平行句子的优势是什么?
双向方法优于单向方法,能更有效地提取平行句子,提取的语料库包含约200,000个句子。
如何通过众包收集平行语料库?
通过众包的方法收集平行语料库虽然牺牲了质量,但比雇佣专业翻译人员更具成本效益。
日英商务会话平行语料库的目的是什么?
日英商务会话平行语料库旨在提高会话文本的机器翻译质量,并展示基于该语料库训练的系统的优势。
ParaPhraser Plus数据集的作用是什么?
ParaPhraser Plus数据集旨在解决俄语释义生成领域小规模语料库的问题,促进文本生成的应用。
➡️