小红花·文摘

本文介绍了一种新的模式转换器，通过卷积神经网络从输入图像中提取各种模式，并将其作为视觉令牌输入到后续的Transformer模型中，实现对图像的自适应转换。在CIFAR-10和CIFAR-100数据集上，通过使用通用ResNet和Transformer模型，取得了最新的性能，并在ImageNet上取得了优异的结果。