多模态大型语言模型增强的跨语言跨模态检索
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
UC2是首个利用机器翻译增强的框架,用于跨语言跨模态表示学习。通过扩展英语数据集,引入多语言图像标题,实现语言对齐。提出了两种任务,加速图像与多语言嵌入学习。评估显示,该框架在多语言图像文本检索和视觉问答上表现出色,并在英语任务中保持优异性能。
🎯
关键要点
- UC2是第一个基于机器翻译增强的框架,用于跨语言跨模态表示学习。
- 通过机器翻译引入其他语言的图像标题,扩充了现有的英语数据集。
- 将Masked Language Modeling和Image-Text Matching训练目标扩展到多语言环境。
- 提出了Masked Region-to-Token Modeling(MRTM)和Visual Translation Language Modeling(VTLM)两个新的预训练任务。
- 评估显示该框架在多语言图像文本检索和视觉问答上表现出色。
- 在英语任务上,该框架保持与单语预训练模型相当的性能。
➡️