聚合特征的面向对象的开放词汇图像检索

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐方法,通过伪标注实现高质量对象提议并扩展词汇表,将两种对象对齐策略结合,实现了在OVD方案中对象和图像中心表示的最小化差距。在COCO数据集上,该方法在新颖类别上取得了36.6的AP50表现,超过以前的最佳性能;在LVIS上,罕见类别上超越了最新的ViLD模型达5.0的掩膜AP,总体提高3.4。

🎯

关键要点

  • 提出了一种基于CLIP模型和图像水平监督的对象中心对齐方法。

  • 运用伪标注实现高质量对象提议并扩展词汇表。

  • 通过新的权重传递函数结合两种对象对齐策略。

  • 在OVD方案中实现对象和图像中心表示的最小化差距。

  • 在COCO数据集上,新颖类别的AP50表现达到36.6,超过以前的最佳性能。

  • 在LVIS数据集中,罕见类别的掩膜AP超越最新的ViLD模型达5.0,总体提高3.4。

➡️

继续阅读