补丁不是全部所需
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新的模式转换器,通过卷积神经网络从输入图像中提取各种模式,并将其作为视觉令牌输入到后续的Transformer模型中,实现对图像的自适应转换。在CIFAR-10和CIFAR-100数据集上,通过使用通用ResNet和Transformer模型,取得了最新的性能,并在ImageNet上取得了优异的结果。
🎯
关键要点
- 提出了一种新的模式转换器 (Pattern Transformer)。
- 通过卷积神经网络从输入图像中提取各种模式。
- 每个通道表示为一个独特的模式,作为视觉令牌输入到后续的 Transformer 模型中。
- 实现了对图像的自适应转换。
- 在 CIFAR-10 和 CIFAR-100 数据集上取得了最新的性能。
- 在 ImageNet 上取得了优异的结果。
➡️