DeciMamba: 探索 Mamba 的长度外推潜能
原文中文,约900字,阅读约需2分钟。发表于: 。通过对 Mamba 的可推广长度进行可视化和分析,发现限制来自于训练阶段使用的序列长度,为了解决此限制,引入了一种特别设计给 Mamba 的上下文扩展方法 DeciMamba,通过 S6 层中嵌入的隐藏过滤机制,使得经过训练的模型即使没有额外的训练也能良好地推广,经真实世界的长距离 NLP 任务实验表明,DeciMamba 可以将推广的上下文长度延长到训练过程中看到的长度的 25...
选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,但在需要强大的复制或上下文学习能力的任务上落后于Transformer。然而,Mamba-2-Hybrid在12个标准任务上超过了Transformer,并且在生成推理标记时速度最多快8倍。在额外的长期上下文任务中,混合模型继续紧密匹配或超越了Transformer。