QuadMamba:基于四叉树的选择性扫描视觉状态空间模型学习
原文中文,约500字,阅读约需2分钟。发表于: 。本研究解决了现有视觉状态空间模型在适应视觉任务时的局限性,尤其是有效捕捉图像中的局部依赖性问题。提出的QuadMamba模型通过四叉树图像分区和扫描,优化了空间局部性的保留,从而在多个视觉任务中实现了先进的性能,具有重要的应用潜力。
本研究受状态空间模型在语言和视觉领域的启发,提出了EfficientVMamba模型。通过跳跃采样和空洞选择性扫描结合卷积,提升了性能。在ImageNet上,EfficientVMamba比Vim-Ti提高了5.6%的准确率,同时降低了计算复杂性。