无监督开放词汇视频物体定位
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐方法,通过伪标注实现高质量对象提议并扩展词汇表,将两种对象对齐策略结合,实现了在OVD方案中对象和图像中心表示的最小化差距。该方法在COCO数据集上取得了36.6的AP50表现,在LVIS上,该方法在罕见类别上超越了最新的ViLD模型,达到5.0的掩膜AP,总体提高了3.4。
🎯
关键要点
-
提出了一种基于CLIP模型和图像水平监督的对象中心对齐方法。
-
运用伪标注实现高质量对象提议并扩展词汇表。
-
通过新的权重传递函数结合两种对象对齐策略。
-
在OVD方案中实现对象和图像中心表示的最小化差距。
-
在COCO数据集上取得36.6的AP50表现,超过以前的最佳性能。
-
在LVIS上,罕见类别超越最新的ViLD模型,达到5.0的掩膜AP,总体提高3.4。
➡️