从变压器到状态空间模型：将二次知识提炼为亚二次模型

本文针对现有变压器模型在推理时的二次时间复杂度问题，提出了一种新的提炼方法。该方法通过将变压器与状态空间模型视作不同的混合矩阵应用，在多层次上逐步提炼变压器架构，最终实现了基于Phi-1.5架构的Mamba-2变体的惊人性能表现。此研究表明，状态空间模型可以有效利用变压器训练过程中投入的计算资源，开启了新型模型构建的可能性。

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，例如计算复杂度和内存需求。研究发现，SSMs在语言建模能力上可以达到或超越Transformer。在大规模实验中，8B参数的Mamba、Mamba-2和Transformer模型进行了比较，结果显示Mamba-2-Hybrid在12个标准任务上超过了Transformer。在长期上下文任务中，混合模型继续匹配或超越了Transformer。