高效的视觉 Transformer 模型:动态空闲令牌策略
原文中文,约500字,阅读约需2分钟。发表于: 。为了解决 Vision Transformers 在计算资源受限环境中的高计算复杂度问题,该研究提出了 IdleViT 方法,通过动态删除图像令牌来改善计算负担,实现了性能和效率之间的卓越折中。在各个层中,IdleViT 选择参与计算的图像令牌子集,并将其余的令牌保持空闲并直接传递给该层的输出,通过在后续层重新选择空闲令牌,IdleViT...
IdleViT方法通过动态删除图像令牌来改善计算负担,实现了性能和效率之间的卓越折中。该方法可以将预训练ViTs的复杂性降低高达33%,在ImageNet上微调30个周期后的准确率降低不超过0.2%。在保留比例为0.5时,IdleViT相比于最先进的EViT在DeiT-S上的准确率更高,且推理速度更快。