多模态大型语言模型增强的跨语言跨模态检索

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

UC2是首个利用机器翻译增强的框架,用于跨语言跨模态表示学习。通过扩展英语数据集,引入多语言图像标题,实现语言对齐。提出了两种任务,加速图像与多语言嵌入学习。评估显示,该框架在多语言图像文本检索和视觉问答上表现出色,并在英语任务中保持优异性能。

🎯

关键要点

  • UC2是第一个基于机器翻译增强的框架,用于跨语言跨模态表示学习。
  • 通过机器翻译引入其他语言的图像标题,扩充了现有的英语数据集。
  • 将Masked Language Modeling和Image-Text Matching训练目标扩展到多语言环境。
  • 提出了Masked Region-to-Token Modeling(MRTM)和Visual Translation Language Modeling(VTLM)两个新的预训练任务。
  • 评估显示该框架在多语言图像文本检索和视觉问答上表现出色。
  • 在英语任务上,该框架保持与单语预训练模型相当的性能。
➡️

继续阅读