小红花·文摘

本文介绍了多种高效的视觉Transformer模型及其在图像分类和物体检测中的应用。通过引入稀疏注意力机制和混合架构，提升了计算效率和性能，尤其在移动设备上表现优异。此外，提出的动态引导自注意力方法显著加速了运行时间，超越了现有技术。