高效的视觉 Transformer 的令牌传播控制器
原文中文,约400字,阅读约需1分钟。发表于: 。使用视觉 Transformer(ViTs)处理图像问题存在显著的计算复杂度,本文提出了一种新的令牌传播控制器(TPC),通过考虑令牌分布和引入平滑机制以及模型稳定器来提高令牌利用率和模型稳定性。实验证明了该方法的有效性。
IdleViT是一种改善Vision Transformers计算复杂度的方法,通过动态删除图像令牌并保持其余令牌空闲。实验证明,IdleViT可以降低预训练ViTs的复杂性,并在微调后的ImageNet上准确率下降不超过0.2%。同时,在保留比例为0.5时,IdleViT在DeiT-S上的准确率更高,推理速度更快。