双语和多语种模型在自然语言处理中的表现因语言而异,数据质量不均是主要原因。我们提出了一种数据过滤策略,选择高质量的双语训练数据,应用于法语、德语和中文,提升了单语性能2-4%,并将双语模型性能差距缩小至1%。这表明数据质量在多语种预训练中的重要性。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: