建立预训练语言模型的方法：无数据？别担心，采用翻译语言

通过使用机器翻译创建合成数据（Translationese）预训练语言模型（LMs），本研究探讨了将 Translationese 作为一种用于预训练语言模型的可用性。我们以英语和印度语为例，将网络抓取的单语文档翻译成目标语言，然后在这些合成数据（synthetic）上用含有 2800 万和 8500 万参数的语言模型进行训练。实验证明，在下游自然语言理解和生成任务中，与基于干净数据进行预训练的语言模型相比，我们的模型性能仅差 3.56％（自然语言理解任务）和 1.51％（自然语言生成任务）。此外，我们提出了使用基于干净数据进行预训练的轻量级 TinyLMs 有效过滤合成数据的方法，从而显著提高模型性能。我们还发现，在一个微小比例（10％）的干净数据上进行扩展预训练能显著改善预训练合成数据的语言模型。我们通过这项工作收集和创建的数据集 IndicMonoDoc 是最大的单语文档级语料库，希望能够弥补英语和非英语大型语言模型性能差距。

这项研究探讨了将机器翻译创建的合成数据用于预训练语言模型的可行性。实验证明，与基于干净数据进行预训练的模型相比，使用合成数据进行预训练的模型在自然语言理解和生成任务中性能仅差3.56％和1.51％。同时，研究还提出了一种有效过滤合成数据的方法，以提高模型性能。此外，通过这项工作收集和创建的数据集是最大的单语文档级语料库，旨在弥补大型语言模型在英语和非英语之间的性能差距。

观测云	LigaAI
Dify.AI	eolink