无蒸馏的大规模状态空间模型在图像和视频中的扩展
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了大规模状态空间模型(SSMs)在图像分类和动作识别中的可扩展性问题,特别是针对Mamba模型无法有效扩展参数数量的限制。通过提出一种Mamba-注意力交错架构,该研究显著提升了可扩展性、鲁棒性和性能,且在多个基准测试中展现了相较于现有模型高出1.7的准确率提升。
基于Transformer架构的基础模型存在内容导向推理的弱点,通过改进结构状态空间模型(SSMs)参数成为输入的函数,将选择性SSMs集成到简化的神经网络架构中,提出了快速推断速度和线性扩展的模型Mamba。Mamba在语言、音频和基因组等多个模态上实现了最先进的性能。