量子位 ·

Mamba写代码真的超越Transformer！原始论文入选顶流新会议

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

Mistral AI和Mamba合作开发了一个名为Codestral Mamba的开源模型，它是基于Mamba2架构的代码生成模型。与Transformer架构不同，Mamba架构允许线性时间推理，并理论上支持无限长度的输入。Codestral Mamba在基准测试中表现优异。Mistral AI还发布了一个名为Mathstral的新数学模型。Mathstral在各个学科中表现出色，并且可以在更多推理时间下取得更好的结果。

🎯

关键要点

Mistral AI与Mamba合作推出开源模型Codestral Mamba，基于Mamba2架构，专注于代码生成。
Mamba架构支持线性时间推理，理论上可处理无限长度输入。
Codestral Mamba在基准测试中表现优异，超越多个现有模型。
Mistral AI还发布了新的数学模型Mathstral，专注于STEM领域。
Mathstral在基准测试中表现良好，得分可通过更多推理时间提升。
Mamba架构由Tri Dao和Albert Gu提出，旨在解决Transformer架构处理长文本的算力消耗问题。
Mamba2架构在训练速度和状态空间上有显著提升，已被顶级会议接收。

❓

延伸问答

Codestral Mamba是什么模型？

Codestral Mamba是基于Mamba2架构的开源代码生成模型，由Mistral AI和Mamba合作开发。

Mamba架构与Transformer架构有什么不同？

Mamba架构支持线性时间推理，理论上可以处理无限长度的输入，而Transformer架构在处理长文本时算力消耗较大。

Codestral Mamba在基准测试中的表现如何？

Codestral Mamba在基准测试中表现优异，超越了多个现有模型，包括CodeGemma-1.1和CodeLlama。

Mathstral模型的主要应用领域是什么？

Mathstral模型专注于STEM领域，即科学、技术、工程和数学。

Mamba架构的创新点有哪些？

Mamba架构的创新点包括对输入信息的选择性处理、硬件感知的算法和更简单的架构设计。

Mamba2架构相比于初代Mamba有什么改进？

Mamba2架构在状态空间上扩大了8倍，训练速度提高了50%。

🏷️