低资源自动标注的嵌入式翻译

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

本文介绍了一个涵盖1.8k种语言的跨语言翻译数据语料库,收集超过450k样例。研究表明,跨语言转移能有效提升资源稀缺语言的翻译质量。通过多语言模型的预训练和微调,模型在低资源语言的语音翻译和手语翻译方面取得显著进展。

🎯

关键要点

  • 我们编译了最大的跨语言翻译数据语料库,覆盖1.8k种语言,收集超过450k样例。
  • 通过多语言模型的预训练和微调,模型在低资源语言的翻译质量上取得显著进展。
  • 跨语言转移有效提升了资源稀缺语言的翻译质量,未分词文本和小型语料库的形态准确性超过SOTA模型高达6.6%。
  • 研究表明,从字符级识别转化为单词级可以显著提高低资源语言语音翻译的速度和准确性。
  • 在零-shot翻译情景下,未见过的中低资源语言的BLEU分数平均提高了18.8分和11.9分。

延伸问答

跨语言翻译数据语料库的规模有多大?

该语料库覆盖了1.8k种语言,收集超过450k样例。

如何提高低资源语言的翻译质量?

通过多语言模型的预训练和微调,以及跨语言转移,可以有效提升低资源语言的翻译质量。

跨语言转移对资源稀缺语言的影响是什么?

跨语言转移有效提升了资源稀缺语言的翻译质量,未分词文本的形态准确性超过SOTA模型高达6.6%。

在低资源语言的语音翻译中,字符级识别转化为单词级有什么好处?

这种转化可以显著提高低资源语言语音翻译的速度和准确性。

零-shot翻译情景下的表现如何?

在零-shot翻译情景下,未见过的中低资源语言的BLEU分数平均提高了18.8分和11.9分。

该研究如何改善手语翻译的准确性?

研究提出了基于规则的启发式方法,提高了手语到文本翻译的机器翻译准确性。

➡️

继续阅读