零样例组合图像检索的球形线性插值与文本锚定
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种名为Context-I2W的新型网络,用于将图像信息转换为描述的伪词标记,以实现准确的零样本组合图像检索任务。该网络通过学习旋转规则将相同图像映射到特定任务的操作视图,并捕获涵盖主要目标的局部信息,无需额外监督。该模型在四个零样本组合图像检索任务上表现出很强的泛化能力,并取得了新的最先进结果。
🎯
关键要点
- 提出了一种名为Context-I2W的新型上下文依赖映射网络。
- 该网络用于将与描述相关的图像信息转换为描述的伪词标记。
- 实现准确的零样本组合图像检索(ZS-CIR)任务。
- 通过动态学习旋转规则将相同图像映射到特定任务的操作视图。
- 捕获涵盖ZS-CIR任务中主要目标的局部信息,无需额外监督。
- 模型在四个ZS-CIR任务上表现出强泛化能力。
- 相对最佳方法提高了1.88%至3.60%的性能。
- 在ZS-CIR上取得了新的最先进结果。
🏷️
标签
➡️