该研究评估了21个预训练Vision Transformer架构在纹理识别中的性能,结果显示Vision Transformers在纹理识别方面表现优于其他模型,尤其在处理互联网纹理任务时更突出。ViT-B with DINO pre-training,BeiTv2,Swin architecture和EfficientFormer被认为是更具潜力的模型。此外,ViT-B和BeiT(v2)在GPU上的特征提取时间比ResNet50更短,实现了更高的效率。
完成下面两步后,将自动完成登录并继续当前操作。