APE-then-QE: 修正并过滤伪平行语料以用于机器翻译训练数据的生成

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

自动后编辑(APE)是自动识别和校正机器翻译(MT)输出中的错误的任务。研究者提出了修复-过滤-使用的方法,使用APE系统校正MT训练数据的目标端错误。通过使用过滤后的语料库进行训练,相对于基线模型,英语-马拉地语和马拉地语-英语机器翻译系统性能提升了5.64和9.91个BLEU点。这项工作不受语言特征限制,是语言对不可知的。

🎯

关键要点

  • 自动后编辑(APE)是识别和校正机器翻译输出错误的任务。
  • 提出了一种修复-过滤-使用的方法来校正MT训练数据的目标端错误。
  • 使用质量估计(QE)模型计算质量分数选择原始和校正句子对。
  • 通过过滤后的语料库进行训练,英语-马拉地语和马拉地语-英语机器翻译系统性能分别提升了5.64和9.91个BLEU点。
  • 该方法不受语言特征限制,具备必要的QE和APE数据时是语言对不可知的。
➡️

继续阅读