高效的视觉 Transformer 的令牌传播控制器

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

IdleViT是一种改善Vision Transformers计算复杂度的方法,通过动态删除图像令牌并保持其余令牌空闲。实验证明,IdleViT可以降低预训练ViTs的复杂性,并在微调后的ImageNet上准确率下降不超过0.2%。同时,在保留比例为0.5时,IdleViT在DeiT-S上的准确率更高,推理速度更快。

🎯

关键要点

  • IdleViT是一种改善Vision Transformers计算复杂度的方法。
  • IdleViT通过动态删除图像令牌来减轻计算负担。
  • 该方法在各层中选择参与计算的图像令牌子集,其余令牌保持空闲。
  • IdleViT减轻了早期错误剪枝对模型性能的负面影响。
  • IdleViT可以将预训练ViTs的复杂性降低高达33%。
  • 在ImageNet上微调30个周期后,准确率下降不超过0.2%。
  • 在保留比例为0.5时,IdleViT在DeiT-S上的准确率更高,推理速度更快。