小红花·文摘

本研究提出了一种新的无监督方法，使用单语数据生成跨语言句子嵌入和合成平行语料库。通过微调预训练的跨语言掩码语言模型，得到多语言句子表示。实验证明，该方法比基准模型改进了22个F1点，并且合成的双语语料库能改善其他语言对的结果。