用于视觉 Transformer 的高效顺序推理的令牌回收

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

IdleViT是一种改善Vision Transformers计算复杂度问题的方法,通过动态删除图像令牌并保持其余令牌空闲。实验证明,IdleViT可以降低预训练ViTs的复杂性,准确率下降不超过0.2%。在保留比例为0.5时,IdleViT在DeiT-S上具有更高的准确率和更快的推理速度。

🎯

关键要点

  • IdleViT是一种改善Vision Transformers计算复杂度的方法。
  • IdleViT通过动态删除图像令牌来减轻计算负担。
  • 该方法在各个层中选择参与计算的图像令牌子集,保持其余令牌空闲。
  • IdleViT减轻了早期错误剪枝对模型性能的负面影响。
  • 该方法简单有效,可扩展到金字塔ViTs。
  • IdleViT可以将预训练ViTs的复杂性降低高达33%。
  • 在只进行30个周期的微调后,准确率降低不超过0.2%。
  • 在保留比例为0.5时,IdleViT在DeiT-S上具有更高的准确率和更快的推理速度。
➡️

继续阅读