为大型语言模型预训练采用不同语言和质量水平的自然文本数据重述

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本研究探讨了使用机器翻译生成的合成数据(Translationese)预训练语言模型的有效性。通过对英语和印地语文档进行翻译,训练了2800万和8500万参数的模型。实验结果显示,与干净数据模型相比,性能差距仅为3.56%和1.51%。此外,提出了利用TinyLMs过滤合成数据的方法,显著提升了模型性能。

🎯

关键要点

  • 本研究探讨了使用机器翻译生成的合成数据作为预训练语言模型的有效性。

  • 研究中使用了2800万和8500万参数的语言模型,基于英语和印地语的翻译文档进行训练。

  • 实验结果显示,与干净数据模型相比,模型性能差距仅为3.56%(自然语言理解任务)和1.51%(自然语言生成任务)。

  • 提出了利用基于干净数据的轻量级TinyLMs过滤合成数据的方法,显著提升了模型性能。

  • 发现使用10%的干净数据进行扩展预训练能显著改善合成数据的语言模型性能。

  • 收集和创建的数据集IndicMonoDoc是最大的单语文档级语料库,旨在弥补英语和非英语大型语言模型的性能差距。

➡️

继续阅读