From Unaligned to Aligned: Expanding Multilingual Large Language Models Using Multidirectional Parallel Corpora

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究引入TED2025多向平行语料库,解决了多语言低资源环境中未对齐数据的局限性,提升了大型语言模型的多语言表现。实验结果表明,基于多向平行数据训练的模型优于未对齐数据模型。

🎯

关键要点

  • 本研究引入TED2025多向平行语料库,解决了多语言低资源环境中未对齐数据的局限性。

  • 研究展示了多向平行数据的最佳实践,提升了大型语言模型的多语言表现。

  • 实验结果表明,基于多向平行数据训练的模型在多个多语言基准测试中表现优于未对齐的多语言数据训练模型。

➡️

继续阅读