零样本组图检索,考虑到查询目标之间的关系,利用遮罩图像文本对
原文中文,约400字,阅读约需1分钟。发表于: 。提出了一种考虑查询目标关系的零样本组合图像检索方法,通过遮蔽的图像文本对。通过利用遮蔽策略学习查询目标关系并训练旨在检索的文本反转网络,预期可以实现精确的零样本组合图像检索。实验结果显示了该方法的有效性。
本文介绍了一种名为Zero-Shot CIR(ZS-CIR)的新任务,该任务不需要有标签的训练数据集。作者提出了一种名为iSEARLE的方法,将参考图像的视觉信息映射到CLIP标记嵌入空间的伪词标记中,并与相关说明结合。作者还提供了一个名为CIRCO的开放领域基准数据集,是第一个每个查询都用多个真实值和语义分类进行标记的CIR数据集。实验结果表明,iSEARLE在多个CIR数据集以及领域转换和对象组合的评估设置上都获得了最先进的性能。