小红花·文摘

本研究介绍了EMMA-500，一个在546种语言上持续训练的大规模多语言模型，旨在提升低资源语言的表现。通过MaLA语料库的持续预训练，Llama 2 7B模型在跨语言转移、任务泛化和语言适应性方面表现显著，尤其在少数语言上效果突出。研究强调了词汇扩展和持续训练的重要性。