YOLOS:大道至简,直接使用预训练ViT进行实时目标检测 | NeurIPS 2021 - 晓飞的算法工程笔记
原文中文,约5800字,阅读约需14分钟。发表于: 。论文探索了在中型ImageNet-1k数据集上预训练的普通ViT到更具挑战性的COCO目标检测基准的可迁移性,提出了基于Vision Transformer的You Only Look at One Sequence(YOLOS)目标检测模型。在具有挑战性的COCO目标检测基准上的实验结果表明,2D
本论文研究了基于Vision Transformer(ViT)的目标检测模型YOLOS的可迁移性。实验结果显示,YOLOS以纯sequence-to-sequence的方式完成目标检测,附加的归纳偏置最小。与DETR相比,YOLOS选择了仅编码器的Transformer架构,并使用预训练的ViT表达。实验结果表明,YOLOS在复杂的目标检测任务上具有竞争力的性能。