低资源NMT的高质量数据增强:结合翻译记忆、生成对抗网络与过滤

💡 原文中文,约2000字,阅读约需5分钟。
📝

内容提要

本研究提出了一种利用单语语料库和生成对抗网络(GAN)相结合的新方法,以增强低资源语言翻译任务的训练数据并提高翻译质量。该方法通过回译、数据增强和无监督神经机器翻译等技术,有效提高了翻译性能。

🎯

关键要点

  • 本研究提出了一种结合单语语料库和生成对抗网络(GAN)的方法,旨在增强低资源语言翻译的训练数据。
  • 该方法通过回译、数据增强和无监督神经机器翻译等技术,提高了翻译质量。
  • 整合翻译记忆(TM)与NMT,并提出新的过滤程序,显著提升了合成句对的质量。
  • 回译技术用于扩展数据集,确保高质量翻译结果。
  • 实验结果表明,Adversarial-NMT模型性能显著高于基线模型,能够实现更高质量的翻译。
  • 研究还探讨了多种数据增强技术在低资源条件下的应用效果,提升了翻译质量。
  • 调查低资源神经机器翻译的相关作品,帮助研究人员理解领域现状并设计更好的算法。
  • 提出DAASI方法,通过学习中间潜在表示优化基于GAN的多语言翻译模型,提升了低资源语言对的翻译性能。
  • 利用生成式语言模型进行数据增强,探索基于提示的方法生成合成平行语料库,提升了翻译质量。
➡️

继续阅读