小红花·文摘

PlainMamba是一种简单的非层次化状态空间模型，用于通用视觉识别。它通过选择性扫描过程提高了学习二维图像特征的能力，并通过连续2D扫描和方向性更新来区分标记的空间关系。PlainMamba易于使用和扩展，无需特殊标记。在多种视觉识别任务上评估后，PlainMamba取得了性能提升，并且与层次化模型相媲美。对于高分辨率输入任务，PlainMamba在保持高性能的同时需要更少的计算资源。