具有自我出现标记的完全注意力网络

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

提出了一种轻量级和高效的视觉变换模型DualToken-ViT,融合局部和全局信息,改进图像位置信息。在广泛实验中,展示了DualToken-ViT在图像分类、物体检测和语义分割任务上的有效性。在ImageNet-1K数据集上,准确率分别为75.4%和79.4%。FLOPs为0.5G和1.0G时,1.0G FLOPs的模型性能超过LightViT-T模型0.7%。

🎯

关键要点

  • 提出了一种轻量级和高效的视觉变换模型DualToken-ViT。
  • DualToken-ViT融合了局部信息和全局信息,改进了图像位置信息。
  • 在图像分类、物体检测和语义分割任务上进行了广泛实验,展示了模型的有效性。
  • 在ImageNet-1K数据集上,DualToken-ViT的准确率为75.4%和79.4%。
  • 在0.5G和1.0G的FLOPs下,1.0G FLOPs的模型性能超过LightViT-T模型0.7%。
➡️

继续阅读