CTRL-F:通过多级特征交互和表示学习融合,在图像分类中将卷积与 Transformer 结合
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本论文提出了一种名为Conformer的混合网络结构,利用卷积操作和self-attention机制进行增强表示学习。实验证明,Conformer在ImageNet上优于visual transformer(DeiT-B)2.3%,在MSCOCO上在目标检测和实例分割方面都优于ResNet-101,具有成为通用主干网络的潜力。
🎯
关键要点
- 提出了一种名为Conformer的混合网络结构。
- Conformer结合了卷积操作和self-attention机制,增强表示学习。
- Conformer能够最大程度地保留局部特征和全局表示。
- 实验证明,Conformer在ImageNet上优于visual transformer(DeiT-B)2.3%。
- 在MSCOCO上,Conformer在目标检测和实例分割方面优于ResNet-101。
- Conformer具有成为通用主干网络的巨大潜力。
➡️