本研究探讨了双语语言模型中数据质量对性能的影响,发现数据质量不均是导致性能下降的主要原因。我们提出了一种数据过滤策略,选择高质量的双语训练数据,应用于法语、德语和中文,提升了单语性能2-4%,并将双语模型性能差距缩小至1%。这强调了多语言预训练中数据质量的重要性。
完成下面两步后,将自动完成登录并继续当前操作。