高质量物体检测的 Rank-DETR
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了一种改进的DETR检测器,采用了简洁的设计,使用单尺度特征图和全局交叉注意力计算,通过添加盒子到像素相对位置偏差和基于遮蔽图像模型的骨干预训练来弥补多尺度特征图和局部性约束缺失的问题。该检测器在Object365数据集上预训练,使用Swin-L骨干网络达到了63.9的平均精度(mAP),与最先进的检测器性能相媲美。
🎯
关键要点
- 本文介绍了一种改进的DETR检测器,采用简洁设计。
- 该检测器使用单尺度特征图和全局交叉注意力计算,没有特定的局部约束。
- 提出了两种技术来弥补多尺度特征图和局部性约束缺失的问题。
- 第一种技术是将盒子到像素相对位置偏差(BoxRPB)添加到交叉注意力公式中。
- 第二种技术是基于遮蔽图像模型(MIM)的骨干预训练,帮助学习细粒度定位能力的表示。
- 改进的DETR检测器在Object365数据集上预训练,使用Swin-L骨干网络达到了63.9的平均精度(mAP)。
- 该检测器的性能与依赖于多尺度特征图和基于区域的特征提取的最先进检测器相媲美。
🏷️
标签
➡️