本研究提出了一种基于数据无关的模块感知剪枝方法(DIMAP),用于压缩层级视觉转换器。该方法在 ImageNet-1k 分类上以及不同尺寸的 Swin Transformers 上验证了其有效性和优势。在去除了 Swin-B 52.5%的 FLOPs 和 52.7%的参数时,仅降低了 0.07%的 Top-5 准确率;而在减少 Swin-S 33.2%的 FLOPs 和 33.2%的参数时,甚至可以实现比原模型更高的 0.8%相对 Top-5 准确率。
完成下面两步后,将自动完成登录并继续当前操作。