Apple Machine Learning Research ·

评估数据质量在双语语言模型训练中的作用

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本研究探讨了双语语言模型中数据质量对性能的影响，发现数据质量不均是导致性能下降的主要原因。我们提出了一种数据过滤策略，选择高质量的双语训练数据，应用于法语、德语和中文，提升了单语性能2-4%，并将双语模型性能差距缩小至1%。这强调了多语言预训练中数据质量的重要性。

🎯

🔎

本研究强调了在双语语言模型训练中，数据质量的均衡性对模型性能的影响。仅仅增加数据量并不能保证性能提升，反而可能导致某些语言的表现下降。因此，确保高质量的数据输入是提升模型效果的关键。

研究提出了一种数据过滤策略，通过选择高质量的双语训练数据，显著提升了法语、德语和中文的单语性能。这一策略不仅优化了数据使用效率，还为多语言模型的训练提供了实用的方法，值得其他研究者借鉴。

在多语言模型中，不同语言的性能差异显著，尤其是在数据受限的语言上，增加其他语言可能会导致主流语言（如英语）的性能下降。这一现象提示研究者在设计多语言模型时需谨慎考虑语言选择与数据质量的平衡。

❓

性能差异主要由数据质量不均造成，而不仅仅是数据数量。

研究提出了一种数据过滤策略，选择高质量的双语训练数据，主要依赖高质量的英语数据。

单语性能提升了2-4%，双语模型性能差距缩小至1%。

数据质量在多语言预训练中至关重要，它直接影响模型的性能和效果。

增加语言数量可能导致某些语言（如英语）性能下降，而对其他数据受限的语言则有所改善。

研究发现数据质量不均是双语设置中性能下降的主要原因，并提出了改进策略。

🏷️