预训练 - 微调模式中出现的任务交叉线性

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种多级对比学习框架,使用翻译后的平行数据并整合每对平行句子的单词级信息进行对比学习,提高预训练模型的跨语言能力。采用交叉零噪声对比估计损失减轻训练过程中误差的影响。该方法提高了基础模型的跨语言迁移能力,在多个跨语言任务中表现优异。

🎯

关键要点

  • 提出了一种多级对比学习(ML-CTL)框架。
  • 使用翻译后的平行数据整合每对平行句子的单词级信息进行对比学习。
  • 该框架旨在提高预训练模型的跨语言能力。
  • 采用交叉零噪声对比估计(CZ-NCE)损失以减轻训练过程中的误差影响。
  • 该方法显著提高了基础模型(mBERT)的跨语言迁移能力。
  • 在Xtreme基准测试的多个零-shot跨语言下游任务中表现优异。
➡️

继续阅读