BriefGPT - AI 论文速递 ·

多模态大型语言模型增强的跨语言跨模态检索

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文提出了一种新的多模态多语言嵌入学习方法，旨在匹配图像与相关标题。通过调整词嵌入对齐和结合现有目标函数，提升了文本-图像检索和标题相似性任务的性能。此外，研究引入了机器翻译和新预训练任务，显著提高了多语言图像文本检索的效果，验证了该方法在低资源语言和跨语言检索中的有效性。

🎯

❓

多模态多语言嵌入学习方法用于匹配图像及其相关标题，通过调整词嵌入对齐和结合目标函数来提升检索性能。

通过调整词嵌入对齐和结合现有目标函数，该方法在文本-图像检索和标题相似性任务中实现了更好的性能。

机器翻译用于扩充数据集，引入其他语言的图像标题，从而增强多语言图像文本检索的效果。

研究验证了该方法在低资源语言和跨语言检索中的有效性，显示出良好的适应性。

新提出的预训练任务包括Masked Region-to-Token Modeling（MRTM）和Visual Translation Language Modeling（VTLM）。

实验结果表明，该方法在多语言图像文本检索和视觉问答基准上实现了新的最先进状态。

🏷️