IdleViT是一种改善Vision Transformers计算复杂度的方法,通过动态删除图像令牌并保持其余令牌空闲。实验证明,IdleViT可以降低预训练ViTs的复杂性,并在微调后的ImageNet上准确率下降不超过0.2%。同时,在保留比例为0.5时,IdleViT在DeiT-S上的准确率更高,推理速度更快。
IdleViT是一种改善Vision Transformers计算复杂度问题的方法,通过动态删除图像令牌并保持其余令牌空闲。实验证明,IdleViT可以降低预训练ViTs的复杂性,准确率下降不超过0.2%。在保留比例为0.5时,IdleViT在DeiT-S上具有更高的准确率和更快的推理速度。
完成下面两步后,将自动完成登录并继续当前操作。