小红花·文摘

本文介绍了DualToken-ViT，一种轻量高效的视觉变换模型，通过融合局部和全局信息，使用位置感知的全局标记来改进图像的位置信息。实验证明，DualToken-ViT在图像分类、物体检测和语义分割任务上表现出色，在ImageNet-1K数据集上准确率分别达到了75.4%和79.4%。同时，在0.5G和1.0G的FLOPs下，1.0G FLOPs的DualToken-ViT模型的性能超过了LightViT-T模型0.7%。