本研究提出了一种新的无监督方法,使用单语数据生成跨语言句子嵌入和合成平行语料库。通过微调预训练的跨语言掩码语言模型,得到多语言句子表示。实验证明,该方法比基准模型改进了22个F1点,并且合成的双语语料库能改善其他语言对的结果。
该研究提出了一种新的无监督方法,使用单语数据来获得跨语言句子嵌入,产生合成平行语料库,并使用预训练的跨语言掩码语言模型对其进行微调以得到多语言句子表示。结果表明,该方法可以比基准模型获得高达22个F1点的改进,并且单个合成的双语语料库能够改善其他语言对的结果。
完成下面两步后,将自动完成登录并继续当前操作。