基于检索增强的开放词汇物体检测

💡 原文中文,约1700字,阅读约需5分钟。
📝

内容提要

本文研究了目标检测模型的改进,提出了Query-Adaptive R-CNN、开放词汇检测(OVD)和视觉-语言知识蒸馏(ViLD)等新方法,以提升未知对象的检测和分类性能。实验结果表明,这些方法在多个数据集上显著提高了性能,尤其在长尾分类和零泛化能力方面表现突出。

🎯

关键要点

  • 本文提出了Query-Adaptive R-CNN方法,通过负向短语扩充技术训练分类器,能够在0.5秒内从100万张图像中准确完成目标检索和定位。
  • 开放词汇检测(OVD)是一种新的目标检测范式,能够定位和识别由不受限词汇定义的未知对象,DRR方法在OVD-COCO基准测试中取得了最佳表现,AP$_{50}$增益为2.8。
  • ViLD方法通过视觉和语言知识蒸馏,使用预先训练的图像分类模型直接检测和分类未知类别的物体,在LVIS和其他数据集上表现优于现有最先进水平。
  • Retrieval Augmented Classification (RAC)方法显著提高了长尾分类问题的性能,特别是在尾部类别上,提供了更有效利用外部存储器的方案。
  • 增量的视觉-语言物体检测(IVLOD)学习任务通过Zero-interference Reparameterizable Adaptation(ZiRa)方法有效保护了模型的零泛化能力,并适应新任务。
  • NegLabel是一种新型事后OOD检测方法,利用负标签和OOD得分方案,在各种OOD检测基准数据集上实现了最先进的性能,具有良好的泛化能力和鲁棒性。
  • RAR结合了CLIP和多模态大语言模型的优点,显著提升了细粒度视觉识别和零次识别的准确性。
  • 基于知识图谱的视觉语言预训练模型(REAVL)能够检索多模态数据中的世界知识,提高视觉语言理解和多模态实体链接任务的性能。

延伸问答

Query-Adaptive R-CNN方法的主要特点是什么?

Query-Adaptive R-CNN方法通过负向短语扩充技术训练分类器,能够在0.5秒内从100万张图像中准确完成目标检索和定位。

开放词汇检测(OVD)如何提高未知对象的检测能力?

开放词汇检测(OVD)是一种新的目标检测范式,能够定位和识别由不受限词汇定义的未知对象,DRR方法在OVD-COCO基准测试中表现最佳。

ViLD方法是如何工作的?

ViLD方法通过视觉和语言知识蒸馏,使用预先训练的图像分类模型直接检测和分类未知类别的物体,表现优于现有最先进水平。

Retrieval Augmented Classification (RAC)方法的优势是什么?

RAC方法显著提高了长尾分类问题的性能,特别是在尾部类别上,通过引入检索模块有效利用外部存储器。

NegLabel方法在OOD检测中有什么创新?

NegLabel是一种新型事后OOD检测方法,利用负标签和OOD得分方案,在各种OOD检测基准数据集上实现了最先进的性能。

REAVL模型的主要功能是什么?

REAVL模型能够检索多模态数据中的世界知识,提高视觉语言理解和多模态实体链接任务的性能。

➡️

继续阅读