双视图课程优化输运用于跨语言跨模态检索

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

UC2是一个跨语言跨模态表示学习框架,通过引入其他语言的图像标题扩充数据集,提出两个新的预训练任务,实现了新的最先进状态。在多语言图像文本检索和多语言视觉问答基准上表现优异。

🎯

关键要点

  • UC2是第一个基于机器翻译增强的跨语言跨模态表示学习框架。
  • 通过机器翻译引入其他语言的图像标题,扩充了现有的英语数据集。
  • 将标准的Masked Language Modeling和Image-Text Matching训练目标扩展到多语言环境。
  • 通过共享视觉上下文捕获不同语言之间的对齐。
  • 提出了两个新的预训练任务:Masked Region-to-Token Modeling(MRTM)和Visual Translation Language Modeling(VTLM)。
  • 在多语言图像文本检索和多语言视觉问答基准上表现优异,达到了新的最先进状态。
  • 在英语任务上,UC2保持与单语预训练模型相当的性能。
➡️

继续阅读