小红花·文摘

本文探讨了多语言图像标题生成和检索的方法，利用CLIP等预训练模型在多样化数据集上取得了优越表现。研究表明，机器翻译和对比学习能有效提升多语言图像检索性能，尤其在低资源语言上表现突出。RankCLIP通过自我监督学习增强了图像与文本的对齐能力，推动了视觉语言预训练的发展。