基于微调 CLIP 的开放词汇 X 射线禁物检测

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

本文探讨了开放词汇物体检测(OVD)技术,提出了多种方法以提高新物体检测性能,包括使用CLIP模型和伪标注技术。研究表明,这些方法在COCO和LVIS数据集上取得了显著的性能提升,尤其在处理遮挡和新颖类别时表现优异。

🎯

关键要点

  • 开放词汇物体检测(OVD)是一种新的目标检测范式,旨在定位和识别由不受限词汇定义的未知对象。

  • 本文提出了三种 OVD 方法,并通过实验验证了这些方法在不同设置下的性能。

  • DRR 方法在 OVD-COCO 基准测试中取得了最佳表现,AP$_{50}$ 绝对增益为 2.8。

  • 提出了基于 CLIP 模型的开放词汇物体检测框架,通过生成高质量的候选区域和伪标签来提高新物体的检测性能。

  • 在 COCO 数据集上,基于 CLIP 的方法在新颖类别上取得了 36.6 的 AP50 表现,超越了以前的最佳性能。

  • 在 LVIS 数据集上,方法在罕见类别上超越了最新的 ViLD 模型,掩膜 AP 提高了 5.0,总体提高 3.4。

  • 利用 CLIP 模型的零样本能力和伪区域标注的外部数据源,提出了一种改进开放词汇目标检测模型泛化能力的技术。

延伸问答

开放词汇物体检测(OVD)是什么?

开放词汇物体检测(OVD)是一种新的目标检测范式,旨在定位和识别由不受限词汇定义的未知对象。

本文提出了哪些方法来提高新物体的检测性能?

本文提出了三种OVD方法,包括基于CLIP模型的框架和伪标注技术,以提高新物体的检测性能。

DRR方法在OVD-COCO基准测试中的表现如何?

DRR方法在OVD-COCO基准测试中取得了最佳表现,AP$_{50}$绝对增益为2.8。

基于CLIP的开放词汇物体检测框架有什么优势?

基于CLIP的框架通过生成高质量的候选区域和伪标签,显著提高了新物体的检测性能,尤其在新颖类别上表现优异。

在LVIS数据集上,本文的方法表现如何?

在LVIS数据集上,本文的方法在罕见类别上超越了最新的ViLD模型,掩膜AP提高了5.0,总体提高3.4。

如何利用CLIP模型的零样本能力改善OVD模型的泛化能力?

通过结合伪区域标注的外部数据源,利用CLIP模型的零样本能力,可以在CLIP嵌入空间中生成接近新颖类的代理新颖类,从而改善OVD模型的泛化能力。

🏷️

标签

➡️

继续阅读