本文介绍了DualToken-ViT,一种轻量高效的视觉变换模型,通过融合局部和全局信息,使用位置感知的全局标记来改进图像的位置信息。实验证明,DualToken-ViT在图像分类、物体检测和语义分割任务上表现出色,在ImageNet-1K数据集上准确率分别达到了75.4%和79.4%。同时,在0.5G和1.0G的FLOPs下,1.0G FLOPs的DualToken-ViT模型的性能超过了LightViT-T模型0.7%。
提出了一种轻量级和高效的视觉变换模型DualToken-ViT,融合局部和全局信息,改进图像位置信息。在广泛实验中,展示了DualToken-ViT在图像分类、物体检测和语义分割任务上的有效性。在ImageNet-1K数据集上,准确率分别为75.4%和79.4%。FLOPs为0.5G和1.0G时,1.0G FLOPs的模型性能超过LightViT-T模型0.7%。
该文介绍了DualToken-ViT视觉变换模型,它融合局部和全局信息,使用位置感知的全局标记来丰富全局信息,改进了图像的位置信息。在图像分类、物体检测和语义分割任务上进行广泛实验,展示了DualToken-ViT的有效性。
完成下面两步后,将自动完成登录并继续当前操作。