小红花·文摘

该研究探索了自我监督视觉语言表示法对不同长度和数量的图像文本的鲁棒性。研究使用大规模多模态数据集，并提出了一种基线方法，其在零样本图像集检索表现上超过最先进方法10%。