小红花·文摘

本论文介绍了一种名为Conformer的混合网络结构，利用卷积操作和self-attention机制进行增强表示学习。实验证明，Conformer在ImageNet上优于visual transformer（DeiT-B）2.3％，在MSCOCO上，在目标检测和实例分割方面都优于ResNet-101，具有成为通用主干网络的潜力。