基于微调 CLIP 的开放词汇 X 射线禁物检测
内容提要
本文探讨了开放词汇物体检测(OVD)技术,提出了多种方法以提高新物体检测性能,包括使用CLIP模型和伪标注技术。研究表明,这些方法在COCO和LVIS数据集上取得了显著的性能提升,尤其在处理遮挡和新颖类别时表现优异。
关键要点
-
开放词汇物体检测(OVD)是一种新的目标检测范式,旨在定位和识别由不受限词汇定义的未知对象。
-
本文提出了三种 OVD 方法,并通过实验验证了这些方法在不同设置下的性能。
-
DRR 方法在 OVD-COCO 基准测试中取得了最佳表现,AP$_{50}$ 绝对增益为 2.8。
-
提出了基于 CLIP 模型的开放词汇物体检测框架,通过生成高质量的候选区域和伪标签来提高新物体的检测性能。
-
在 COCO 数据集上,基于 CLIP 的方法在新颖类别上取得了 36.6 的 AP50 表现,超越了以前的最佳性能。
-
在 LVIS 数据集上,方法在罕见类别上超越了最新的 ViLD 模型,掩膜 AP 提高了 5.0,总体提高 3.4。
-
利用 CLIP 模型的零样本能力和伪区域标注的外部数据源,提出了一种改进开放词汇目标检测模型泛化能力的技术。
延伸问答
开放词汇物体检测(OVD)是什么?
开放词汇物体检测(OVD)是一种新的目标检测范式,旨在定位和识别由不受限词汇定义的未知对象。
本文提出了哪些方法来提高新物体的检测性能?
本文提出了三种OVD方法,包括基于CLIP模型的框架和伪标注技术,以提高新物体的检测性能。
DRR方法在OVD-COCO基准测试中的表现如何?
DRR方法在OVD-COCO基准测试中取得了最佳表现,AP$_{50}$绝对增益为2.8。
基于CLIP的开放词汇物体检测框架有什么优势?
基于CLIP的框架通过生成高质量的候选区域和伪标签,显著提高了新物体的检测性能,尤其在新颖类别上表现优异。
在LVIS数据集上,本文的方法表现如何?
在LVIS数据集上,本文的方法在罕见类别上超越了最新的ViLD模型,掩膜AP提高了5.0,总体提高3.4。
如何利用CLIP模型的零样本能力改善OVD模型的泛化能力?
通过结合伪区域标注的外部数据源,利用CLIP模型的零样本能力,可以在CLIP嵌入空间中生成接近新颖类的代理新颖类,从而改善OVD模型的泛化能力。