小红花·文摘

本论文研究了基于Vision Transformer（ViT）的目标检测模型YOLOS的可迁移性。实验结果显示，YOLOS以纯sequence-to-sequence的方式完成目标检测，附加的归纳偏置最小。与DETR相比，YOLOS选择了仅编码器的Transformer架构，并使用预训练的ViT表达。实验结果表明，YOLOS在复杂的目标检测任务上具有竞争力的性能。