使用单一源语言的大规模机器翻译语料库进行多语言预训练
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了多语言预训练语料库质量和多样性不足的问题,提出通过将高质量英语数据集FineWeb-Edu翻译为法语、德语和西班牙语来增强多语言大型语言模型的预训练效果。我们的CuatroLLM模型在非英语推理任务中展现了卓越的性能,甚至在数据量较少的情况下超越了现有的多语言模型,具有显著的研究价值和潜在影响。
本研究通过将高质量英语数据集FineWeb-Edu翻译为法语、德语和西班牙语,提升了多语言大型语言模型的预训练效果。CuatroLLM模型在非英语推理任务中表现优异,超越现有多语言模型,具有重要的研究价值。