APE-then-QE: 修正并过滤伪平行语料以用于机器翻译训练数据的生成
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
自动后编辑(APE)是自动识别和校正机器翻译(MT)输出中的错误的任务。研究者提出了修复-过滤-使用的方法,使用APE系统校正MT训练数据的目标端错误。通过使用过滤后的语料库进行训练,相对于基线模型,英语-马拉地语和马拉地语-英语机器翻译系统性能提升了5.64和9.91个BLEU点。这项工作不受语言特征限制,是语言对不可知的。
🎯
关键要点
- 自动后编辑(APE)是识别和校正机器翻译输出错误的任务。
- 提出了一种修复-过滤-使用的方法来校正MT训练数据的目标端错误。
- 使用质量估计(QE)模型计算质量分数选择原始和校正句子对。
- 通过过滤后的语料库进行训练,英语-马拉地语和马拉地语-英语机器翻译系统性能分别提升了5.64和9.91个BLEU点。
- 该方法不受语言特征限制,具备必要的QE和APE数据时是语言对不可知的。
➡️