ReMamba:为 Mamba 提供有效的长序列建模
原文中文,约800字,阅读约需2分钟。发表于: 。本研究针对 Mamba 模型在长上下文理解中的效率问题,提出了 ReMamba,该模型通过选择性压缩和适应技术,增强了 Mamba 对长上下文的理解能力,且额外推理成本极小。实验结果显示,ReMamba 在 LongBench 和 L-Eval 基准测试中,分别提高了 3.2 和 1.6 的表现,表现接近相同大小的变压器模型。
选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,例如计算复杂度和内存需求。研究发现,SSMs在语言建模能力上可以达到或超越Transformer。在大规模实验中,8B参数的Mamba、Mamba-2和Transformer模型进行了比较。结果显示,纯SSMs在许多任务上达到或超越了Transformers,但在需要强大的复制或上下文学习能力或长期推理的任务上,它们落后于Transformers。相反,8B的Mamba-2-Hybrid在所有12个标准任务上超过了8B Transformer,并且在生成推理标记时速度最多快8倍。混合模型在额外的长期上下文任务中继续紧密匹配或超越了Transformer。