网络中机器翻译的惊人数量:多样并行的洞察

原文约300字,阅读约需1分钟。发表于:

Web 内容通常被翻译成多种语言,多语言机器翻译常常质量较低,且低资源语言中占大部分的内容是机器生成的多语言内容;我们发现内容选择偏差,即低质量英文内容通过机器翻译大规模转译成较低资源语言;我们的研究对使用从网上刮取的单语和双语数据来训练多语言大型语言模型等模型提出了严重的疑虑。

多语言机器翻译质量低,英文内容通过机器翻译转译成较低资源语言。研究对训练多语言大型语言模型提出疑虑。

相关推荐 去reddit讨论