小红花·文摘

本文介绍了Vision和Detection Transformers（ViDT），ViDT是一个高效的物体检测器，通过重新配置注意力模块扩展Swin Transformer为独立的物体检测器，并采用多尺度特征和辅助技术提高检测性能，支持对象检测和实例分割的联合任务学习。已在Microsoft COCO基准数据集上获得广泛评估结果，是目前最佳的基于Transformer的物体检测器之一。