多模态大型语言模型增强的跨语言跨模态检索
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了跨语言跨模态检索(CCR)中非英语查询检索视觉相关内容的挑战,尤其是由于视觉与文本之间的语义差距及非英语表示的低质量带来的问题。通过引入多模态大型语言模型(MLLM)生成详细的视觉内容描述,本文提出的LECCR方法显著提高了视觉特征与非英语特征之间的对齐,实验结果表明该方法在多个 CCR 基准测试中表现优异。
UC2是首个利用机器翻译增强的框架,用于跨语言跨模态表示学习。通过扩展英语数据集,引入多语言图像标题,实现语言对齐。提出了两种任务,加速图像与多语言嵌入学习。评估显示,该框架在多语言图像文本检索和视觉问答上表现出色,并在英语任务中保持优异性能。