小红花·文摘

本文介绍了一种名为Context-I2W的新型网络，用于将图像信息转换为描述的伪词标记，以实现准确的零样本组合图像检索任务。该网络通过学习旋转规则将相同图像映射到特定任务的操作视图，并捕获涵盖主要目标的局部信息，无需额外监督。该模型在四个零样本组合图像检索任务上表现出很强的泛化能力，并取得了新的最先进结果。

零样例组合图像检索的球形线性插值与文本锚定

BriefGPT - AI 论文速递 ·

本文介绍了一种名为Context-I2W的新型上下文依赖映射网络，用于实现准确的零样本组合图像检索任务。该模型通过动态学习旋转规则将相同的图像映射到特定任务的操作视图，并在多个可学习查询的指导下进一步捕获涵盖ZS-CIR任务中主要目标的局部信息，从而实现将图像映射到上下文依赖的伪词标记。该模型在四个ZS-CIR任务上表现出很强的泛化能力，并取得了新的最先进结果。

基于视觉和语言的无需训练的组合图像检索

BriefGPT - AI 论文速递 ·

句级提示有利于复合图像检索

BriefGPT - AI 论文速递 ·