小红花·文摘

该研究评估了21个预训练Vision Transformer架构在纹理识别中的性能，结果显示Vision Transformers在纹理识别方面表现优于其他模型，尤其在处理互联网纹理任务时更突出。ViT-B with DINO pre-training，BeiTv2，Swin architecture和EfficientFormer被认为是更具潜力的模型。此外，ViT-B和BeiT(v2)在GPU上的特征提取时间比ResNet50更短，实现了更高的效率。