聚合特征的面向对象的开放词汇图像检索

本研究提出了一种简单而有效的方法来实现以对象为中心的开放词汇图像检索，通过从 CLIP 中提取出的密集嵌入将大规模图像检索管道的可扩展性与密集检测方法的对象识别能力相结合，从而实现了极大的提升。

本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐方法，通过伪标注实现高质量对象提议并扩展词汇表，将两种对象对齐策略结合，实现了在OVD方案中对象和图像中心表示的最小化差距。在COCO数据集上，该方法在新颖类别上取得了36.6的AP50表现，超过以前的最佳性能；在LVIS上，罕见类别上超越了最新的ViLD模型达5.0的掩膜AP，总体提高3.4。