双语语料库挖掘和多阶段微调以提升讲座文稿机器翻译
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该研究提出了一种新的无监督方法,使用单语数据来获得跨语言句子嵌入,产生合成平行语料库,并使用预训练的跨语言掩码语言模型对其进行微调以得到多语言句子表示。结果表明,该方法可以比基准模型获得高达22个F1点的改进,并且单个合成的双语语料库能够改善其他语言对的结果。
🎯
关键要点
- 该研究提出了一种新的无监督方法,使用单语数据获得跨语言句子嵌入。
- 该方法产生了合成平行语料库,并使用预训练的跨语言掩码语言模型进行微调。
- 在两个平行语料库挖掘任务上评估了表示的质量。
- 结果显示,该方法比基准XLM模型获得高达22个F1点的改进。
- 单个合成的双语语料库能够改善其他语言对的结果。
➡️