小红花·文摘

本文提出了一种新的多模态多语言嵌入学习方法，旨在匹配图像与相关标题。通过调整词嵌入对齐和结合现有目标函数，提升了文本-图像检索和标题相似性任务的性能。此外，研究引入了机器翻译和新预训练任务，显著提高了多语言图像文本检索的效果，验证了该方法在低资源语言和跨语言检索中的有效性。