小红花·文摘

本文介绍了一种名为MambaVision的新型混合型Mamba-Transformer骨干网络，专为视觉应用而设计。通过重新设计Mamba的表达方式，增强了其对视觉特征的建模能力。研究结果表明，在最后几层为Mamba架构添加多个自注意力块可以明显提高其对长程空间依赖的建模能力。MambaVision模型在图像分类和下游任务中取得了新的最先进性能。