本研究探讨了使用机器翻译生成的合成数据(Translationese)预训练语言模型的有效性。通过对英语和印地语文档进行翻译,训练了2800万和8500万参数的模型。实验结果显示,与干净数据模型相比,性能差距仅为3.56%和1.51%。此外,提出了利用TinyLMs过滤合成数据的方法,显著提升了模型性能。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: