论文提出了T2T-ViT模型,通过引入tokens-to-token(T2T)模块有效融合图像结构信息,并设计了深窄的ViT主干网络,增强特征丰富性。在ImageNet上,T2T-ViT在零训练时性能优于ResNets,与MobileNets相当。
完成下面两步后,将自动完成登录并继续当前操作。