Jamba-1.5:大规模混合Transformer-Mamba模型
原文中文,约800字,阅读约需2分钟。发表于: 。本研究提出了Jamba-1.5,解决了当前语言模型在处理长上下文时的低效率和高内存消耗问题。通过引入一种新颖的混合Transformer-Mamba架构,该模型在长上下文下依然保持高效的处理能力与优良的质量。研究发现,Jamba-1.5在多个基准测试中的表现优异,具有广泛的应用潜力。
选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,例如计算复杂度和内存需求。研究发现,SSMs在语言建模能力上可以达到或超越Transformer。在大规模实验中,8B参数的Mamba、Mamba-2和Transformer模型进行了比较,结果显示纯SSMs在许多任务上达到或超越了Transformers,但在需要强大的复制或上下文学习能力或长期推理的任务上,它们落后于Transformers。然而,8B的Mamba-2-Hybrid在所有12个标准任务上超过了8B Transformer,并且在生成推理标记时速度最多快8倍。在额外的长期上下文任务中,混合模型继续紧密匹配或超越了Transformer。