揭示并缓解Mamba的局部模式捷径

本研究针对大型语言模型（LLMs）在处理长上下文任务时的性能欠缺问题，提出了一种新方法，通过引入全局选择模块消除Mamba模型对局部模式捷径的过度依赖。实验结果显示，该方法显著提升了Mamba在处理分布式关键信息任务中的表现，从0分提升至80.54分，具有很大的潜在影响。

选择性状态空间模型（SSMs）如Mamba解决了Transformer的一些问题，如计算复杂度和内存需求。研究显示，SSMs在语言建模上可与Transformers媲美。在相同数据集上比较8B参数的Mamba、Mamba-2和Transformer模型，发现纯SSMs在许多任务上表现出色，但在需要强复制或上下文学习的任务上不如Transformers。然而，Mamba-2-Hybrid在所有评估任务中超过了8B Transformer，并且生成推理速度更快。研究结果已在NVIDIA的Megatron-LM项目中发布。

Mamba Megatron-LM NVIDIA SSMs Transformer