LeMeViT:高效视觉变换器与可学习元记号用于遥感图像解读
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了DualToken-ViT,一种轻量高效的视觉变换模型,通过融合局部和全局信息,使用位置感知的全局标记来改进图像的位置信息。实验证明,DualToken-ViT在图像分类、物体检测和语义分割任务上表现出色,在ImageNet-1K数据集上准确率分别达到了75.4%和79.4%。同时,在0.5G和1.0G的FLOPs下,1.0G FLOPs的DualToken-ViT模型的性能超过了LightViT-T模型0.7%。
🎯
关键要点
- 提出了一种轻量级和高效的视觉变换模型DualToken-ViT。
- DualToken-ViT通过卷积和自注意结构融合局部和全局信息。
- 模型使用位置感知的全局标记来改进图像的位置信息。
- 在图像分类、物体检测和语义分割任务上进行了广泛实验。
- DualToken-ViT在ImageNet-1K数据集上取得了75.4%和79.4%的准确率。
- 在0.5G和1.0G的FLOPs下,1.0G FLOPs的模型性能超过了LightViT-T模型0.7%。
🏷️
标签
➡️