基于视觉和语言的无需训练的组合图像检索

通过使用大规模视觉语言模型（VLMs）和大型语言模型（LLMs）并基于文本目标修改对参考图像进行标题化，然后通过 CLIP 进行检索，我们提出了一种简单、人类可理解且可扩展的 CIReVL 方法，以训练免费的方式解决 CIR 问题，并取得了与有监督的方法相竞争的性能。

本文介绍了一种名为Context-I2W的新型上下文依赖映射网络，用于实现准确的零样本组合图像检索任务。该模型通过动态学习旋转规则将相同的图像映射到特定任务的操作视图，并在多个可学习查询的指导下进一步捕获涵盖ZS-CIR任务中主要目标的局部信息，从而实现将图像映射到上下文依赖的伪词标记。该模型在四个ZS-CIR任务上表现出很强的泛化能力，并取得了新的最先进结果。