补丁不是全部所需

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种新的模式转换器,通过卷积神经网络从输入图像中提取各种模式,并将其作为视觉令牌输入到后续的Transformer模型中,实现对图像的自适应转换。在CIFAR-10和CIFAR-100数据集上,通过使用通用ResNet和Transformer模型,取得了最新的性能,并在ImageNet上取得了优异的结果。

🎯

关键要点

  • 提出了一种新的模式转换器 (Pattern Transformer)。
  • 通过卷积神经网络从输入图像中提取各种模式。
  • 每个通道表示为一个独特的模式,作为视觉令牌输入到后续的 Transformer 模型中。
  • 实现了对图像的自适应转换。
  • 在 CIFAR-10 和 CIFAR-100 数据集上取得了最新的性能。
  • 在 ImageNet 上取得了优异的结果。
➡️

继续阅读