语言模型的减肥计划:通过额外预训练进行相关语言编码器的成本高效开发

原文约300字,阅读约需1分钟。发表于:

我们研究了利用现有的多语言模型进行额外预训练,以确保在克罗地亚语、塞尔维亚语、波斯尼亚语和黑山语这几种密切相关的语言集合中存在具有 10 亿参数的编码器模型的最佳方法,结果显示即使计算量有限,额外预训练可获得与从头开发的模型相当的性能,同时表明邻近语言(如斯洛文尼亚语)的额外预训练几乎不会影响最终模型的性能。

我们研究了利用现有的多语言模型进行额外预训练的最佳方法,结果显示额外预训练可获得与从头开发的模型相当的性能。邻近语言的额外预训练几乎不会影响最终模型的性能。

相关推荐 去reddit讨论