本文介绍了Vision和Detection Transformers(ViDT),ViDT是一个高效的物体检测器,通过重新配置注意力模块扩展Swin Transformer为独立的物体检测器,并采用多尺度特征和辅助技术提高检测性能,支持对象检测和实例分割的联合任务学习。已在Microsoft COCO基准数据集上获得广泛评估结果,是目前最佳的基于Transformer的物体检测器之一。
完成下面两步后,将自动完成登录并继续当前操作。