补丁不是全部所需
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新的模式转换器,通过卷积神经网络从输入图像中提取各种模式,并将其作为视觉令牌输入到后续的Transformer模型中,实现对图像的自适应转换。在CIFAR-10和CIFAR-100数据集上,通过使用通用ResNet和Transformer模型,取得了最新的性能,并在ImageNet上取得了优异的结果。
🎯
关键要点
-
提出了一种新的模式转换器 (Pattern Transformer)。
-
通过卷积神经网络从输入图像中提取各种模式。
-
每个通道表示为一个独特的模式,作为视觉令牌输入到后续的 Transformer 模型中。
-
实现了对图像的自适应转换。
-
在 CIFAR-10 和 CIFAR-100 数据集上取得了最新的性能。
-
在 ImageNet 上取得了优异的结果。
🏷️