本论文研究了基于Vision Transformer(ViT)的目标检测模型YOLOS的可迁移性。实验结果显示,YOLOS以纯sequence-to-sequence的方式完成目标检测,附加的归纳偏置最小。与DETR相比,YOLOS选择了仅编码器的Transformer架构,并使用预训练的ViT表达。实验结果表明,YOLOS在复杂的目标检测任务上具有竞争力的性能。
完成下面两步后,将自动完成登录并继续当前操作。