状态空间模型作为基础模型的控制论概述
原文中文,约500字,阅读约需1分钟。发表于: 。近年来,将线性状态空间模型(SSM)整合到深度神经网络架构的基础模型中的兴趣日益增长。该论文对控制理论家介绍了 SSM 基于架构,并总结了最新的研究进展,对最成功的 SSM 提案进行了系统回顾,从控制理论的角度突出了它们的主要特点。此外,我们针对用于评估模型在学习长序列方面效率的标准基准进行了这些模型的性能比较分析。
基于Transformer架构的基础模型存在内容导向推理的弱点,通过改进结构状态空间模型(SSMs)参数成为输入的函数,将选择性SSMs集成到简化的神经网络架构中,提出了快速推断速度和线性扩展的模型Mamba。Mamba在语言、音频和基因组等多个模态上实现了最先进的性能。