Mamba写代码真的超越Transformer!原始论文入选顶流新会议
原文中文,约2500字,阅读约需6分钟。发表于: 。Mistral AI和Mamba强强联合
Mistral AI和Mamba合作开发了一个名为Codestral Mamba的开源模型,它是基于Mamba2架构的代码生成模型。与Transformer架构不同,Mamba架构允许线性时间推理,并理论上支持无限长度的输入。Codestral Mamba在基准测试中表现优异。Mistral AI还发布了一个名为Mathstral的新数学模型。Mathstral在各个学科中表现出色,并且可以在更多推理时间下取得更好的结果。