解耦的 DETR:空间分离定位和分类以改善端到端对象检测

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了一种改进的DETR检测器,使用单尺度特征图和全局交叉注意力计算,通过添加盒子到像素相对位置偏差和基于遮蔽图像模型的骨干预训练来弥补多尺度特征图和局部性约束缺失的问题。改进的DETR检测器在Object365数据集上达到了63.9的平均精度(mAP),与依赖于多尺度特征图和基于区域的特征提取的最先进的检测器性能相媲美。

🎯

关键要点

  • 本文介绍了一种改进的DETR检测器,采用简洁设计,使用单尺度特征图和全局交叉注意力计算。

  • 改进的DETR检测器没有重新引入多尺度和局部性的架构偏好。

  • 提出了两种技术来弥补多尺度特征图和局部性约束缺失的问题:盒子到像素相对位置偏差(BoxRPB)和基于遮蔽图像模型(MIM)的骨干预训练。

  • BoxRPB项帮助指导查询与对象区域的相互关注,提供编码灵活性。

  • 基于MIM的预训练有助于学习细粒度定位能力的表示,补救对多尺度特征图的依赖。

  • 改进的DETR检测器在Object365数据集上达到了63.9的平均精度(mAP),与最先进的检测器性能相媲美。

  • 代码在指定的URL中提供。

➡️

继续阅读