BriefGPT - AI 论文速递 ·

基于检索增强的开放词汇物体检测

💡 原文中文，约1700字，阅读约需5分钟。

📝

内容提要

本文研究了目标检测模型的改进，提出了Query-Adaptive R-CNN、开放词汇检测（OVD）和视觉-语言知识蒸馏（ViLD）等新方法，以提升未知对象的检测和分类性能。实验结果表明，这些方法在多个数据集上显著提高了性能，尤其在长尾分类和零泛化能力方面表现突出。

🎯

本文提出了Query-Adaptive R-CNN方法，通过负向短语扩充技术训练分类器，能够在0.5秒内从100万张图像中准确完成目标检索和定位。
开放词汇检测（OVD）是一种新的目标检测范式，能够定位和识别由不受限词汇定义的未知对象，DRR方法在OVD-COCO基准测试中取得了最佳表现，AP$_{50}$增益为2.8。
ViLD方法通过视觉和语言知识蒸馏，使用预先训练的图像分类模型直接检测和分类未知类别的物体，在LVIS和其他数据集上表现优于现有最先进水平。
Retrieval Augmented Classification (RAC)方法显著提高了长尾分类问题的性能，特别是在尾部类别上，提供了更有效利用外部存储器的方案。
增量的视觉-语言物体检测（IVLOD）学习任务通过Zero-interference Reparameterizable Adaptation（ZiRa）方法有效保护了模型的零泛化能力，并适应新任务。
NegLabel是一种新型事后OOD检测方法，利用负标签和OOD得分方案，在各种OOD检测基准数据集上实现了最先进的性能，具有良好的泛化能力和鲁棒性。
RAR结合了CLIP和多模态大语言模型的优点，显著提升了细粒度视觉识别和零次识别的准确性。
基于知识图谱的视觉语言预训练模型（REAVL）能够检索多模态数据中的世界知识，提高视觉语言理解和多模态实体链接任务的性能。

❓

Query-Adaptive R-CNN方法通过负向短语扩充技术训练分类器，能够在0.5秒内从100万张图像中准确完成目标检索和定位。

开放词汇检测（OVD）是一种新的目标检测范式，能够定位和识别由不受限词汇定义的未知对象，DRR方法在OVD-COCO基准测试中表现最佳。

ViLD方法通过视觉和语言知识蒸馏，使用预先训练的图像分类模型直接检测和分类未知类别的物体，表现优于现有最先进水平。

RAC方法显著提高了长尾分类问题的性能，特别是在尾部类别上，通过引入检索模块有效利用外部存储器。

NegLabel是一种新型事后OOD检测方法，利用负标签和OOD得分方案，在各种OOD检测基准数据集上实现了最先进的性能。

REAVL模型能够检索多模态数据中的世界知识，提高视觉语言理解和多模态实体链接任务的性能。

🏷️