基于视觉和语言的无需训练的组合图像检索

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为Context-I2W的新型上下文依赖映射网络,用于实现准确的零样本组合图像检索任务。该模型通过动态学习旋转规则将相同的图像映射到特定任务的操作视图,并在多个可学习查询的指导下进一步捕获涵盖ZS-CIR任务中主要目标的局部信息,从而实现将图像映射到上下文依赖的伪词标记。该模型在四个ZS-CIR任务上表现出很强的泛化能力,并取得了新的最先进结果。

🎯

关键要点

  • 提出了一种名为Context-I2W的新型上下文依赖映射网络。

  • 该模型用于准确的零样本组合图像检索(ZS-CIR)任务。

  • 通过动态学习旋转规则将相同的图像映射到特定任务的操作视图。

  • 在多个可学习查询的指导下捕获ZS-CIR任务中的局部信息。

  • 模型实现了将图像映射到上下文依赖的伪词标记,无需额外监督。

  • 在四个ZS-CIR任务上表现出强大的泛化能力。

  • 相对最佳方法提高了1.88%至3.60%的性能。

  • 在ZS-CIR上取得了新的最先进结果。

➡️

继续阅读