MAP: Unleashing the Potential of Hybrid Mamba-Transformer Vision Backbone Networks through Masked Autoregressive Pretraining
原文英文,约100词,阅读约需1分钟。发表于: 。本研究解决了Mamba在视觉应用中的可扩展性问题,提出通过掩蔽自回归预训练(MAP)来提升混合Mamba-Transformer视觉骨干网络的性能。通过正确的自回归预训练方法,显著提高了Mamba架构的视觉学习效果,且该方法在2D和3D数据集上表现出色,达到了最新的性能标准。
本研究通过掩蔽自回归预训练提升了Mamba-Transformer视觉网络的性能,解决了其在视觉应用中的扩展性问题,在2D和3D数据集上表现优异,达到最新标准。