本文介绍了一种名为Context-I2W的新型网络,用于将图像信息转换为描述的伪词标记,以实现准确的零样本组合图像检索任务。该网络通过学习旋转规则将相同图像映射到特定任务的操作视图,并捕获涵盖主要目标的局部信息,无需额外监督。该模型在四个零样本组合图像检索任务上表现出很强的泛化能力,并取得了新的最先进结果。
完成下面两步后,将自动完成登录并继续当前操作。