晓飞的算法工程笔记 ·

CvT：微软提出结合CNN的ViT架构 | 2021 arxiv - 晓飞的算法工程笔记

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

CvT是一种结合Transformer与CNN的图像识别架构，通过卷积操作和多阶段设计提升局部建模能力和计算效率。它移除了位置嵌入，适应可变输入分辨率的视觉任务，在ImageNet-1k上表现优于其他模型，同时参数和计算量更少。

🎯

❓

CvT结合了Transformer与CNN的优势，采用多阶段层级结构设计，并引入Convolutional Token Embedding和Convolutional Projection操作，增强局部建模能力。

CvT通过深度可分离卷积替代多头自注意力的原始位置线性投影，提高了计算效率，同时减少了参数和计算量。

在ImageNet-1k上，CvT的性能优于其他Vision Transformer和ResNet，且参数和计算量更少。

CvT移除了Position Embedding，增强了局部上下文建模能力，使其能够适应可变输入分辨率的视觉任务。

Convolutional Token Embedding用于增加block输入和中间特征的局部建模能力，提升整体性能。

CvT引入了卷积操作，增强了局部建模能力，并移除了Position Embedding，保持了Transformer的动态注意力和全局上下文优势。

🏷️