LPViT:低功耗半结构化剪枝用于视觉 Transformer

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究提出了一种基于数据无关的模块感知剪枝方法(DIMAP),用于压缩层级视觉转换器。该方法在 ImageNet-1k 分类上以及不同尺寸的 Swin Transformers 上验证了其有效性和优势。在去除了 Swin-B 52.5%的 FLOPs 和 52.7%的参数时,仅降低了 0.07%的 Top-5 准确率;而在减少 Swin-S 33.2%的 FLOPs 和 33.2%的参数时,甚至可以实现比原模型更高的 0.8%相对 Top-5 准确率。

🎯

关键要点

  • 提出了一种基于数据无关的模块感知剪枝方法(DIMAP)
  • 该方法用于压缩层级视觉转换器
  • 通过分析信息失真比较不同层级的局部注意力权重贡献
  • 引入基于权重的新型度量,消除对图块合并过程的依赖性
  • 在ImageNet-1k分类上验证了方法的有效性和优势
  • 去除Swin-B 52.5%的FLOPs和52.7%的参数,仅降低0.07%的Top-5准确率
  • 减少Swin-S 33.2%的FLOPs和33.2%的参数时,Top-5准确率提高0.8%
➡️

继续阅读