无监督开放词汇视频物体定位
原文约300字/词,阅读约需1分钟。发表于: 。通过在视频中定位对象的插槽注意力方法以及利用预训练的 CLIP 模型实现无监督视频对象定位,我们展示了近期视频表征学习和预训练视觉语言模型的重要进展,取得了显著的提升,并成为首个在常规视频基准数据集上具有良好结果的无监督方法。
本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐方法,通过伪标注实现高质量对象提议并扩展词汇表,将两种对象对齐策略结合,实现了在OVD方案中对象和图像中心表示的最小化差距。该方法在COCO数据集上取得了36.6的AP50表现,在LVIS上,该方法在罕见类别上超越了最新的ViLD模型,达到5.0的掩膜AP,总体提高了3.4。