从变压器到状态空间模型:将二次知识提炼为亚二次模型
原文中文,约800字,阅读约需2分钟。发表于: 。本文针对现有变压器模型在推理时的二次时间复杂度问题,提出了一种新的提炼方法。该方法通过将变压器与状态空间模型视作不同的混合矩阵应用,在多层次上逐步提炼变压器架构,最终实现了基于Phi-1.5架构的Mamba-2变体的惊人性能表现。此研究表明,状态空间模型可以有效利用变压器训练过程中投入的计算资源,开启了新型模型构建的可能性。
选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,例如计算复杂度和内存需求。研究发现,SSMs在语言建模能力上可以达到或超越Transformer。在大规模实验中,8B参数的Mamba、Mamba-2和Transformer模型进行了比较,结果显示Mamba-2-Hybrid在12个标准任务上超过了Transformer。在长期上下文任务中,混合模型继续匹配或超越了Transformer。