非流利的合成目标语言数据提高神经机器翻译

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究比较了几种生成合成源句子的方法,发现采样或噪声束搜索的反向翻译效果最佳。同时,将该方法扩展到数亿条单语数据,取得了35 BLEU的最新记录。

🎯

关键要点

  • 使用单语数据生成目标语反向翻译的方法可以提高神经机器翻译质量。
  • 本研究比较了几种生成合成源句子的方法,发现采样或噪声束搜索的反向翻译效果最佳。
  • 合成数据的训练信号强于束搜索或贪婪搜索的数据。
  • 研究了不同领域对生成合成源句子效果的影响。
  • 将该方法扩展到数亿条单语数据,获得了35 BLEU的最新记录。
➡️

继续阅读