OVA-DETR:基于图像-文本对齐和融合的开放词汇空中目标检测
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了使用少样本进行卫星图像目标检测的方法,通过大规模预训练模型构建类参考嵌入或原型,并微调原型以提高性能。研究结果表明,视觉特征优于视觉语言模型,开发的检测器在两个遥感数据集上表现出优异性能。
🎯
关键要点
-
本文探讨了使用少样本进行卫星图像目标检测的方法。
-
用户可以通过最少的注释指定任何目标类。
-
基于传统的两阶段架构开发了少样本目标检测器。
-
分类块被基于原型的分类器替代。
-
使用大规模预训练模型构建类参考嵌入或原型。
-
在可用的训练图像上微调原型以提高性能。
-
对两个遥感数据集进行了广泛评估,包含具有挑战性和罕见对象。
-
研究了视觉特征和图像文本特征的性能,包括DINOv2和CLIP。
-
结果表明,视觉特征优于视觉语言模型。
-
开发的检测器在SIMD和DIOR数据集上表现优于全监督和少样本方法。
➡️