BriefGPT - AI 论文速递 ·

基于微调 CLIP 的开放词汇 X 射线禁物检测

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文探讨了开放词汇物体检测（OVD）技术，提出了多种方法以提高新物体检测性能，包括使用CLIP模型和伪标注技术。研究表明，这些方法在COCO和LVIS数据集上取得了显著的性能提升，尤其在处理遮挡和新颖类别时表现优异。

🎯

❓

开放词汇物体检测（OVD）是一种新的目标检测范式，旨在定位和识别由不受限词汇定义的未知对象。

本文提出了三种OVD方法，包括基于CLIP模型的框架和伪标注技术，以提高新物体的检测性能。

DRR方法在OVD-COCO基准测试中取得了最佳表现，AP$_{50}$绝对增益为2.8。

基于CLIP的框架通过生成高质量的候选区域和伪标签，显著提高了新物体的检测性能，尤其在新颖类别上表现优异。

在LVIS数据集上，本文的方法在罕见类别上超越了最新的ViLD模型，掩膜AP提高了5.0，总体提高3.4。

通过结合伪区域标注的外部数据源，利用CLIP模型的零样本能力，可以在CLIP嵌入空间中生成接近新颖类的代理新颖类，从而改善OVD模型的泛化能力。

🏷️