通过相邻区域注意力对齐进行开放式目标检测
原文中文,约300字,阅读约需1分钟。发表于: 。提出了一种邻近区域注意力对齐的方法,通过在一组邻近区域的注意力机制内进行对齐来提升开放词汇推理,进而协助检测器和预训练视觉语言模型之间的对齐,在开放词汇基准测试中展现出优秀的性能。
本文介绍了一种基于CLIP模型和图像水平监督的对象中心对齐方法,通过伪标注实现高质量对象提议并扩展词汇表,结合两种对象对齐策略,最小化OVD方案中对象和图像中心表示的差距。该方法在COCO数据集上,在新颖类别上取得了36.6的AP50表现,超过了以前的最佳性能。在LVIS上,罕见类别的掩膜AP超过了最新的ViLD模型达到5.0,总体提高了3.4。