YOLOS:大道至简,直接使用预训练ViT进行实时目标检测 | NeurIPS 2021 - 晓飞的算法工程笔记
💡
原文中文,约5800字,阅读约需14分钟。
📝
内容提要
本论文研究了基于Vision Transformer(ViT)的目标检测模型YOLOS的可迁移性。实验结果显示,YOLOS以纯sequence-to-sequence的方式完成目标检测,附加的归纳偏置最小。与DETR相比,YOLOS选择了仅编码器的Transformer架构,并使用预训练的ViT表达。实验结果表明,YOLOS在复杂的目标检测任务上具有竞争力的性能。
🎯
关键要点
- 本论文研究了基于Vision Transformer(ViT)的目标检测模型YOLOS的可迁移性。
- YOLOS以纯sequence-to-sequence的方式完成目标检测,附加的归纳偏置最小。
- YOLOS选择了仅编码器的Transformer架构,并使用预训练的ViT表达。
- 实验结果表明,YOLOS在复杂的目标检测任务上具有竞争力的性能。
- YOLOS模型在中型ImageNet-1k数据集上预训练,成功迁移至COCO目标检测基准。
- YOLOS通过将ViT中的图像分类标记替换为目标检测标记,简化了模型架构。
- YOLOS的设计旨在揭示预训练Transformer在目标检测中的多功能性和可迁移性。
- YOLOS的主体与ViT基本相同,由一堆Transformer编码器层组成。
- YOLOS的检测头设计简洁,避免了复杂的结构。
- YOLOS在微调时保持图像块大小不变,以适应更高的图像分辨率。
- YOLOS尽可能小地引入额外的归纳偏置,避免使用卷积等可能引入偏置的设计。
- YOLOS与DETR相比,采用了不同的架构和训练方式,强调了其独特性。
- 实验结果展示了不同预训练方法和模型大小对YOLOS性能的影响。
➡️