Longhorn: 状态空间模型是摊销的在线学习耠
📝
内容提要
本研究探索了基于在线学习的状态空间模型 (SSMs) 设计,将其视为特定在线学习问题的元模块,并通过优化这些目标来导出状态转换规则,提出了一种基于隐式更新的新型深度 SSM 架构。实验结果表明,该模型在标准序列建模基准和语言建模任务中优于最先进的 SSMs,包括 Mamba 模型。
➡️
本研究探索了基于在线学习的状态空间模型 (SSMs) 设计,将其视为特定在线学习问题的元模块,并通过优化这些目标来导出状态转换规则,提出了一种基于隐式更新的新型深度 SSM 架构。实验结果表明,该模型在标准序列建模基准和语言建模任务中优于最先进的 SSMs,包括 Mamba 模型。