小红花·文摘

本文介绍了多种视觉Transformer架构的创新，如Atrous Attention、SparseViT和Lite Vision Transformer。这些机制通过稀疏注意力和局部连接等方法，提高了计算效率和模型性能，特别适用于图像分类和目标检测任务，尤其在小数据集上表现优异。