双视图课程优化输运用于跨语言跨模态检索
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
UC2是一个跨语言跨模态表示学习框架,通过引入其他语言的图像标题扩充数据集,提出两个新的预训练任务,实现了新的最先进状态。在多语言图像文本检索和多语言视觉问答基准上表现优异。
🎯
关键要点
- UC2是第一个基于机器翻译增强的跨语言跨模态表示学习框架。
- 通过机器翻译引入其他语言的图像标题,扩充了现有的英语数据集。
- 将标准的Masked Language Modeling和Image-Text Matching训练目标扩展到多语言环境。
- 通过共享视觉上下文捕获不同语言之间的对齐。
- 提出了两个新的预训练任务:Masked Region-to-Token Modeling(MRTM)和Visual Translation Language Modeling(VTLM)。
- 在多语言图像文本检索和多语言视觉问答基准上表现优异,达到了新的最先进状态。
- 在英语任务上,UC2保持与单语预训练模型相当的性能。
➡️