GlossLM：面向低资源的多语言预训练用于语言互译注释

原文约300字，阅读约需1分钟。发表于：。

我们编译了最大的现有的跨语言翻译数据语料库，从多个来源收集了超过 450k 个样例，覆盖了 1.8k 种语言，以便进行跨语言转移和跨语言翻译生成的研究。然后，我们对这个语料库的部分内容进行大规模多语言模型预训练，并进一步对特定语言进行微调。我们的模型在分词数据和大型单语数据集上与最先进的方法相比具有竞争力，同时在未分词的文本和小型语料库上的形态准确性方面超过 SOTA 模型高达 6.6％，证明了跨语言转移对于资源稀缺的语言的有效性。

研究人员编译了最大的跨语言翻译数据语料库，包含超过450k个样例，覆盖1.8k种语言。他们进行了多语言模型预训练和微调，结果显示该模型在形态准确性方面超过了最先进的方法。研究证明跨语言转移对于资源稀缺的语言是有效的。