多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA
原文中文,约1600字,阅读约需4分钟。发表于: 。Mamba作者领衔
Mamba是一种新的架构,通过从Transformer模型中进行知识转移,仅使用1%的计算成本就实现了最先进的性能。这种方法也可以应用于非Transformer架构。研究人员提出了一种名为MOHAWK的蒸馏方法,使用Transformer预训练模型来训练SSMs模型。该模型将注意力和SSMs作为序列转换进行组合。蒸馏过程包括矩阵定向、隐藏状态对齐以及权重转移和知识蒸馏三个阶段。修改后的Phi-Mamba模型在处理长序列方面比传统的Transformer架构效率更高。研究团队还介绍了混合的Phi-Mamba-1.5B模型,它在较少的注意力层下实现了可比较的性能。这种蒸馏方法不仅限于Mamba。该研究由CUM的助理教授Albert Gu领导,他也是Cartesia AI的联合创始人。