消除印度机器翻译任务流行数据集中的误译方法

使用最大的公开可访问的印度语言平行数据集 Samanantar 进行实验,在二种印度语言 Hindi 和 Odia 上构建一个基准神经机器翻译系统,并通过消除数据集中的错误翻译来提高翻译质量,进而发现尽管 ILs-English 和 English-ILs 系统使用相同的数据集进行训练,但 ILs-English 在所有评估指标上的表现更好。

相关推荐 去reddit讨论