结构之法算法之道 ·

一文通透ViT：把图片划分成一个个patch块后再做注意力计算，打破CNN在CV领域的统治地位(含Swin Transformer的详解)

💡 原文中文，约8000字，阅读约需19分钟。

📝

内容提要

ViT（视觉变换器）通过将图像分割为小块并利用自注意力机制，成为计算机视觉领域的重要模型。尽管缺乏先验知识，但在大数据集上表现优越。Swin Transformer在此基础上进一步改进，适应多尺度特征，提升检测和分割效果。

🎯

🔎

ViT与CNN在处理图像时的先验知识差异显著。CNN利用局部性和平移等变性假设，能够在中小型数据集上表现更佳，而ViT则缺乏这些归纳偏置，导致在相同条件下性能不如CNN。这一差异提醒研究者在选择模型时需考虑数据集规模和特性。

Swin Transformer在ViT的基础上引入了多尺度特征处理，适应了目标检测和分割任务的需求。通过窗口机制和patch merging，Swin Transformer有效降低了计算复杂度，同时增强了对多尺寸特征的捕捉能力。这使得其在视觉任务中表现出色，值得关注其在实际应用中的潜力。

ViT通过将图像切分为patches来降低计算复杂度，但在处理高分辨率图像时，计算量仍然庞大。Swin Transformer通过窗口机制进一步优化了自注意力计算，减少了每次计算的patch数量。这一设计对于需要实时处理的应用场景尤为重要，能够显著提升效率。

❓

ViT模型的架构由Embedding层、Transformer Encoder和MLP Head组成。

ViT通过将图像切分为小块（patches）来降低计算复杂度，从而实现自注意力机制。

Swin Transformer通过窗口机制和patch merging来处理多尺度特征，提升了检测和分割效果。

由于ViT缺乏对图像的先验知识，因此在中小型数据集上表现不如CNN。

Swin Transformer通过窗口机制将特征图划分为多个不相交的区域，并在小窗口内进行自注意力计算，从而获取多尺度特征。

ViT没有像CNN那样对图像有较多的先验知识，主要依赖自注意力机制，而CNN则利用局部性和平移等变性。

🏷️