小红花·文摘

本研究提出了一种基于数据无关的模块感知剪枝方法（DIMAP），用于压缩层级视觉转换器。该方法在 ImageNet-1k 分类上以及不同尺寸的 Swin Transformers 上验证了其有效性和优势。在去除了 Swin-B 52.5％的 FLOPs 和 52.7％的参数时，仅降低了 0.07％的 Top-5 准确率；而在减少 Swin-S 33.2％的 FLOPs 和 33.2％的参数时，甚至可以实现比原模型更高的 0.8％相对 Top-5 准确率。