为大型语言模型预训练采用不同语言和质量水平的自然文本数据重述

本研究针对大型语言模型预训练中天然文本数据重述的效果进行了深入探讨，尤其是在不同语言和质量水平的数据结合方面。通过优化重述流程，本研究在标准评估基准测试中显示了显著的性能提升，强调了模型选择对数据重述效果的重要性，并指出多语言和低质量数据的重述是一条具有前景的研究方向。

本研究探讨了使用机器翻译生成的合成数据（Translationese）预训练语言模型的有效性。通过对英语和印地语文档进行翻译，训练了2800万和8500万参数的模型。实验结果显示，与干净数据模型相比，性能差距仅为3.56%和1.51%。此外，提出了利用TinyLMs过滤合成数据的方法，显著提升了模型性能。

TinyLMs 合成数据大型语言模型性能提升机器翻译预训练模型