小红花·文摘

本研究提出了GLADMamba框架，解决了无监督图级异常检测中的长距离依赖和光谱信息忽视问题。通过选择性状态空间模型，GLADMamba在12个真实数据集上显著提升了检测性能。

GLADMamba: Unsupervised Graph-Level Anomaly Detection Based on Selective State Space Model

BriefGPT - AI 论文速递 ·

本研究提出了一种名为S6MOD的插件模块，旨在解决在线持续学习中的模型适应性不足问题。通过引入选择性状态空间模型的离散化混合方法和类别条件路由算法，S6MOD显著提升了模型的灵活性和性能。

Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization

BriefGPT - AI 论文速递 ·

选择性状态空间模型（SSMs）如Mamba在许多任务上超越了Transformer，但在需要强大复制或长期推理的任务上表现较差。Mamba-2-Hybrid模型在所有评估任务中优于Transformer，并在生成推理时速度快8倍。未来将发布相关代码和检查点。

Taipan：具有选择性注意机制的高效且富有表现力的状态空间语言模型

BriefGPT - AI 论文速递 ·

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，例如计算复杂度和内存需求。研究发现，SSMs在语言建模能力上可以达到或超越Transformer。在大规模实验中，8B参数的Mamba、Mamba-2和Transformer模型进行了比较，结果显示Mamba-2-Hybrid在12个任务上超过了Transformer。进一步实验表明混合模型在长期上下文任务中继续匹配或超越了Transformer。

震撼视觉语言模型：比较变压器和结构状态空间模型

BriefGPT - AI 论文速递 ·

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，例如计算复杂度和内存需求。研究发现，SSMs在语言建模能力上可以达到或超越Transformer。在大规模实验中，8B参数的Mamba、Mamba-2和Transformer模型进行了比较。结果显示，纯SSMs在许多任务上达到或超越了Transformers，但在需要强大的复制或上下文学习能力或长期推理的任务上，它们落后于Transformers。相反，8B的Mamba-2-Hybrid在所有12个标准任务上超过了8B Transformer，并且在生成推理标记时速度最多快8倍。混合模型在额外的长期上下文任务中继续紧密匹配或超越了Transformer。

ReMamba：为 Mamba 提供有效的长序列建模

BriefGPT - AI 论文速递 ·

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，例如计算复杂度和内存需求。研究发现，SSMs在语言建模能力上可以达到或超越Transformer。在大规模实验中，8B参数的Mamba、Mamba-2和Transformer模型进行了比较。结果显示，纯SSMs在许多任务上达到或超越了Transformers，但在需要强大的复制或上下文学习能力的任务上落后。而8B的Mamba-2-Hybrid在12个标准任务上超过了8B Transformer，并且在生成推理标记时速度更快。在长期上下文任务中，混合模型继续紧密匹配或超越了Transformer。

在骆驼中的眼镜蛇：蒸馏和加速混合模型

BriefGPT - AI 论文速递 ·

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，例如计算复杂度和内存需求。研究发现，SSMs在语言建模能力上可以达到或超越Transformer。在大规模实验中，8B参数的Mamba、Mamba-2和Transformer模型进行了比较，结果显示纯SSMs在许多任务上达到或超越了Transformers，但在需要强大的复制或上下文学习能力或长期推理的任务上，它们落后于Transformers。然而，8B的Mamba-2-Hybrid在所有12个标准任务上超过了8B Transformer，并且在生成推理标记时速度最多快8倍。在额外的长期上下文任务中，混合模型继续紧密匹配或超越了Transformer。

Jamba-1.5：大规模混合Transformer-Mamba模型

BriefGPT - AI 论文速递 ·

本文提出了一种利用选择性状态空间模型的深度神经网络方法，用于解决光学动态范围压缩器建模中的问题。该方法通过特征线性调制和门控线性单元动态调整网络，提高了低延迟应用的表现。模型在不同光学压缩器上验证有效性，并显示出优于现有模型的准确性。

利用选择性状态空间模型对光学压缩器的时变响应进行建模

BriefGPT - AI 论文速递 ·

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，例如计算复杂度和内存需求。研究发现，SSMs在语言建模能力上可以达到或超越Transformer。在大规模实验中，8B参数的Mamba、Mamba-2和Transformer模型进行了比较，结果显示Mamba-2-Hybrid在12个标准任务上超过了Transformer。在长期上下文任务中，混合模型继续匹配或超越了Transformer。

从变压器到状态空间模型：将二次知识提炼为亚二次模型

BriefGPT - AI 论文速递 ·

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，但在需要复制或上下文学习能力的任务上落后。然而，Mamba-2-Hybrid在12个标准任务上超过了Transformer，并且在生成推理标记时速度最多快8倍。混合模型在额外的长期上下文任务中继续匹配或超越了Transformer。

PackMamba: Mamba 训练中可变长度序列的高效处理

BriefGPT - AI 论文速递 ·

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，但在复制和上下文学习能力任务上落后。然而，Mamba-2-Hybrid在12个标准任务上超过了Transformer，生成推理标记速度最多快8倍。混合模型在额外的长期上下文任务中紧密匹配或超越了Transformer。

状态空间模型在机器翻译中的有效性如何？

BriefGPT - AI 论文速递 ·

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，但在复制和上下文学习能力任务上落后。然而，Mamba-2-Hybrid在12个标准任务上超过了Transformer，并且在生成推理标记时速度最多快8倍。混合模型在额外的长期上下文任务中继续匹配或超越了Transformer。

探索未知领域：从 Transformer 到 Mamba 的导航指南

BriefGPT - AI 论文速递 ·

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，但在复制或上下文学习能力强的任务上落后。然而，Mamba-2-Hybrid在12个标准任务上超过了Transformer，并且在生成推理标记时速度最多快8倍。混合模型在额外的长期上下文任务中继续匹配或超越了Transformer。

OTCE：混合 SSM 和注意力机制，通过跨领域专家混合构建观察者 - 思考者 - 构思者 - 表达耠

BriefGPT - AI 论文速递 ·

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，但在需要强大的复制或上下文学习能力的任务上落后于Transformer。然而，Mamba-2-Hybrid在12个标准任务上超过了Transformer，并且在生成推理标记时速度最多快8倍。在额外的长期上下文任务中，混合模型继续紧密匹配或超越了Transformer。

DeciMamba: 探索 Mamba 的长度外推潜能

BriefGPT - AI 论文速递 ·

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，例如计算复杂度和内存需求。最近的研究显示，SSMs可以达到或超越Transformer的语言建模能力。8B参数的Mamba、Mamba-2和Transformer模型进行了比较，结果显示纯SSMs在许多任务上达到或超越了Transformer，但在需要强大的复制或上下文学习能力的任务上落后。相反，8B的Mamba-2-Hybrid在所有任务上超过了8B Transformer，并且在生成推理标记时速度最多快8倍。混合模型在额外的长期上下文任务中继续紧密匹配或超越了Transformer。

基于蟒蛇的语言模型的实证研究

BriefGPT - AI 论文速递 ·