利用代码交替改进语义检索的跨语言表示

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该文章介绍了一种新的预训练方法Code-Switching Pre-training(CSP),通过跨语言对齐信息预先训练神经机器翻译模型。该方法通过词嵌入映射词典识别源语言和目标语言之间的单词替换,克服了传统模型的缺点。实验证明该方法在无监督和有监督的机器翻译任务上都有显著提高。

🎯

关键要点

  • 提出了一种新的预训练方法 Code-Switching Pre-training(CSP)。
  • CSP通过跨语言对齐信息预先训练神经机器翻译模型。
  • 该方法利用无监督的词嵌入映射词典识别源语言和目标语言之间的单词替换。
  • CSP克服了传统模型随机屏蔽单词的缺点。
  • 实验结果表明,该方法在无监督和有监督的机器翻译任务上都有显著提高。
➡️

继续阅读