通过多任务探索意大利语句嵌入性质

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究提出了一种新的无监督方法,使用单语数据生成跨语言句子嵌入和合成平行语料库。通过微调预训练的跨语言掩码语言模型,得到多语言句子表示。实验证明,该方法比基准模型改进了22个F1点,并且合成的双语语料库能改善其他语言对的结果。

🎯

关键要点

  • 本研究提出了一种新的无监督方法,使用单语数据生成跨语言句子嵌入。
  • 该方法产生了合成平行语料库,并使用预训练的跨语言掩码语言模型进行微调。
  • 通过微调,得到了多语言句子表示,并在两个平行语料库挖掘任务上评估了表示的质量。
  • 实验结果表明,该方法比基准XLM模型改进了22个F1点。
  • 合成的双语语料库能够改善其他语言对的结果。
➡️

继续阅读