ICU: 通过将任务分为图像字幕和语言理解来克服视觉和语言建模中的语言障碍
原文中文,约400字,阅读约需1分钟。
📝
内容提要
UC2是一种跨语言跨模态表示学习框架,通过机器翻译引入其他语言的图像标题,提出了两个新的预训练任务,实现了新的最先进状态。
🎯
关键要点
-
UC2是第一个基于机器翻译增强的跨语言跨模态表示学习框架。
-
通过机器翻译引入其他语言的图像标题,扩充了现有的英语数据集。
-
将标准的Masked Language Modeling和Image-Text Matching训练目标扩展到多语言环境。
-
通过共享视觉上下文来捕获不同语言之间的对齐。
-
提出了两个新的预训练任务:Masked Region-to-Token Modeling(MRTM)和Visual Translation Language Modeling(VTLM)。
-
在多语言图像文本检索和多语言视觉问答基准上的评估表明,UC2在非英语基准上实现了新的最先进状态。
-
在英语任务上,UC2保持与单语预训练模型相当的性能。
🏷️