小红花·文摘

本文提出了一种新型视觉状态空间模型VMamba，结合卷积神经网络和视觉变换器，具有线性复杂度和全局感受野。研究表明，EfficientVMamba在视觉任务中表现优异，特别是在细粒度食物分类上，准确率达到79.54%。此外，VMamba在医学图像分割任务中也展现出竞争力，证明了状态空间模型在多模态学习中的潜力。