在骆驼中的眼镜蛇：蒸馏和加速混合模型

本研究针对现有大型Transformer模型在部署过程中的挑战，提出了一种将其蒸馏为线性RNN的方法，利用注意力层的线性投影权重。该混合模型在对话基准测试中的性能与原始Transformer相当，同时实现了更高的推理速度，对计算资源的要求也较低。

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，例如计算复杂度和内存需求。研究发现，SSMs在语言建模能力上可以达到或超越Transformer。在大规模实验中，8B参数的Mamba、Mamba-2和Transformer模型进行了比较。结果显示，纯SSMs在许多任务上达到或超越了Transformers，但在需要强大的复制或上下文学习能力的任务上落后。而8B的Mamba-2-Hybrid在12个标准任务上超过了8B Transformer，并且在生成推理标记时速度更快。在长期上下文任务中，混合模型继续紧密匹配或超越了Transformer。