小红花·文摘

MatFormer提出了一种新型嵌套Transformer架构Mamba，旨在解决Transformer在推理中的计算复杂性问题。Mamba通过选择性状态空间模型（SSMs）实现快速推断，性能优于同规模的Transformer，尤其在长序列处理和上下文学习方面表现出色，展现了作为Transformer替代方案的潜力。

MatMamba：一种套娃状态空间模型

BriefGPT - AI 论文速递 ·

本文探讨了基于状态空间模型（SSMs）的Mamba架构，解决了Transformer在推理中的计算复杂性和内存问题。Mamba模型在多个模态上表现优异，推断速度比Transformer快5倍，并在长序列处理上具有线性扩展性。研究表明，Mamba在许多任务上超越了Transformer，尤其在长上下文任务中表现突出。

在骆驼中的眼镜蛇：蒸馏和加速混合模型

BriefGPT - AI 论文速递 ·

本文介绍了Routing Transformer和MASFormer等稀疏注意力机制的Transformer模型，旨在提高长序列处理的效率和性能。这些模型通过稀疏化注意力计算，显著降低了复杂度，并在多个基准数据集上表现优异，提升了训练速度和计算效率。

Sparser 更快且更简洁：用于长程 Transformer 的高效稀疏注意力机制

BriefGPT - AI 论文速递 ·

基于Transformer架构的Mamba模型通过改进选择性状态空间模型（SSMs），在推理速度和序列长度上表现优越，尤其在长序列处理上显著优于传统Transformer。Mamba在语言、音频和基因组等领域实现了先进性能，并与混合专家模型结合后进一步提升了性能，适用于多种复杂任务。

OTCE：混合 SSM 和注意力机制，通过跨领域专家混合构建观察者 - 思考者 - 构思者 - 表达耠

BriefGPT - AI 论文速递 ·

本文介绍了多种基于状态空间模型（SSM）的时序预测模型，如S-Mamba和D-Mamba，强调其在节省GPU内存和训练时间的同时提升性能。Mamba模型在语言、音频和基因组等领域表现优异，尤其在处理长序列时显著快于Transformer。此外，研究还提出了SegMamba、Graph-Mamba和PointMamba等新模型，分别在医学图像分割、图网络预测和点云分析中取得了先进性能，展示了SSM在多种任务中的潜力。

将 Mamba 和 Transformer 整合用于长短程时间序列预测

BriefGPT - AI 论文速递 ·

本文探讨了基于状态空间模型的多模态大语言模型VL-Mamba及其在多模态学习中的潜力。研究表明，Mipha模型在多个基准测试中优于大型模型，Mamba在长序列处理上表现出色。提出的混合模态适应方法实现了图像与语言模型的联合优化，显示出成为通用聊天机器人的潜力。此外，SegMamba在医学图像分割中也展现了优越性能。

Cobra: 扩展 Mamba 至多模态大型语言模型以实现高效推理

BriefGPT - AI 论文速递 ·