LPViT:低功耗半结构化剪枝用于视觉 Transformer
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究提出了一种基于数据无关的模块感知剪枝方法(DIMAP),用于压缩层级视觉转换器。该方法在 ImageNet-1k 分类上以及不同尺寸的 Swin Transformers 上验证了其有效性和优势。在去除了 Swin-B 52.5%的 FLOPs 和 52.7%的参数时,仅降低了 0.07%的 Top-5 准确率;而在减少 Swin-S 33.2%的 FLOPs 和 33.2%的参数时,甚至可以实现比原模型更高的 0.8%相对 Top-5 准确率。
🎯
关键要点
- 提出了一种基于数据无关的模块感知剪枝方法(DIMAP)
- 该方法用于压缩层级视觉转换器
- 通过分析信息失真比较不同层级的局部注意力权重贡献
- 引入基于权重的新型度量,消除对图块合并过程的依赖性
- 在ImageNet-1k分类上验证了方法的有效性和优势
- 去除Swin-B 52.5%的FLOPs和52.7%的参数,仅降低0.07%的Top-5准确率
- 减少Swin-S 33.2%的FLOPs和33.2%的参数时,Top-5准确率提高0.8%
➡️