本文提出了一种新型视觉状态空间模型VMamba,结合卷积神经网络和视觉变换器,具有线性复杂度和全局感受野。研究表明,EfficientVMamba在视觉任务中表现优异,特别是在细粒度食物分类上,准确率达到79.54%。此外,VMamba在医学图像分割任务中也展现出竞争力,证明了状态空间模型在多模态学习中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。