本文介绍了一种新的模式转换器,通过卷积神经网络从输入图像中提取各种模式,并将其作为视觉令牌输入到后续的Transformer模型中,实现对图像的自适应转换。在CIFAR-10和CIFAR-100数据集上,通过使用通用ResNet和Transformer模型,取得了最新的性能,并在ImageNet上取得了优异的结果。
完成下面两步后,将自动完成登录并继续当前操作。