为大型语言模型预训练采用不同语言和质量水平的自然文本数据重述

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本研究探讨了使用机器翻译生成的合成数据(Translationese)预训练语言模型的有效性。通过对英语和印地语文档进行翻译,训练了2800万和8500万参数的模型。实验结果显示,与干净数据模型相比,性能差距仅为3.56%和1.51%。此外,提出了利用TinyLMs过滤合成数据的方法,显著提升了模型性能。

原文中文,约500字,阅读约需2分钟。
阅读原文