一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba
原文中文,约3300字,阅读约需8分钟。
📝
内容提要
本文介绍了一种新的注意力模型Mamba,它基于SSM架构,具有线性复杂度和5倍推理吞吐量。Mamba在多个模态上表现出SOTA水平,在预训练和下游任务上都优于同类模型。作者认为Mamba是通用序列模型骨干的有力候选者。
🎯
关键要点
-
Mamba是一种新的注意力模型,基于SSM架构,具有线性复杂度和5倍推理吞吐量。
-
Mamba在多个模态上表现出SOTA水平,优于同类模型。
-
Transformer的计算复杂度与序列长度的平方成正比,导致处理长文本时算力消耗巨大。
-
Mamba在语言、音频和DNA序列模态上实现了SOTA,尤其在语言任务上超越同等规模的Transformer。
-
Mamba的创新包括选择性处理信息、硬件感知算法和更简单的SSM架构。
-
Mamba通过参数化SSM的输入设计选择机制,能够过滤不相关信息并记住相关信息。
-
Mamba使用扫描而非卷积进行循环计算,避免了GPU内存层次结构的IO访问。
-
Mamba的架构结合了门控MLP和现代神经网络的基础块,形成新的Mamba块。
-
在Chinchilla缩放定律下预训练时,Mamba在语言任务上优于同类开源模型。
-
Mamba是第一个真正实现匹配Transformer性能的线性时间序列模型,表现出一定的通用性。
🏷️