用于视觉 Transformer 的高效顺序推理的令牌回收
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
IdleViT是一种改善Vision Transformers计算复杂度问题的方法,通过动态删除图像令牌并保持其余令牌空闲。实验证明,IdleViT可以降低预训练ViTs的复杂性,准确率下降不超过0.2%。在保留比例为0.5时,IdleViT在DeiT-S上具有更高的准确率和更快的推理速度。
🎯
关键要点
- IdleViT是一种改善Vision Transformers计算复杂度的方法。
- IdleViT通过动态删除图像令牌来减轻计算负担。
- 该方法在各个层中选择参与计算的图像令牌子集,保持其余令牌空闲。
- IdleViT减轻了早期错误剪枝对模型性能的负面影响。
- 该方法简单有效,可扩展到金字塔ViTs。
- IdleViT可以将预训练ViTs的复杂性降低高达33%。
- 在只进行30个周期的微调后,准确率降低不超过0.2%。
- 在保留比例为0.5时,IdleViT在DeiT-S上具有更高的准确率和更快的推理速度。
➡️