OVA-DETR:基于图像-文本对齐和融合的开放词汇空中目标检测

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了使用少样本进行卫星图像目标检测的方法,通过大规模预训练模型构建类参考嵌入或原型,并微调原型以提高性能。研究结果表明,视觉特征优于视觉语言模型,开发的检测器在两个遥感数据集上表现出优异性能。

🎯

关键要点

  • 本文探讨了使用少样本进行卫星图像目标检测的方法。

  • 用户可以通过最少的注释指定任何目标类。

  • 基于传统的两阶段架构开发了少样本目标检测器。

  • 分类块被基于原型的分类器替代。

  • 使用大规模预训练模型构建类参考嵌入或原型。

  • 在可用的训练图像上微调原型以提高性能。

  • 对两个遥感数据集进行了广泛评估,包含具有挑战性和罕见对象。

  • 研究了视觉特征和图像文本特征的性能,包括DINOv2和CLIP。

  • 结果表明,视觉特征优于视觉语言模型。

  • 开发的检测器在SIMD和DIOR数据集上表现优于全监督和少样本方法。

➡️

继续阅读