机器之心 ·

非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

阿布扎比技术创新研究所发布了开源Mamba模型Falcon Mamba 7B，采用Mamba架构处理文本生成任务。该模型无需增加内存存储，可在单个24GB A10 GPU上运行。与同尺寸的Transformer模型相比，Falcon Mamba 7B在基准测试中表现更好。

🎯

关键要点

阿布扎比技术创新研究所发布了开源Mamba模型Falcon Mamba 7B，采用Mamba架构处理文本生成任务。
Falcon Mamba 7B无需增加内存存储，可在单个24GB A10 GPU上运行。
Falcon Mamba 7B在基准测试中超越了同尺寸的Transformer模型，如Meta的Llama 3 8B和Mistral 7B。
Falcon Mamba 7B分为基础版本、指令微调版本、4bit版本和指令微调4bit版本。
该模型采用Apache 2.0许可证，支持研究和应用目的。
Falcon Mamba 7B是TII开源的第四个模型，也是首个Mamba SSLM架构模型。
Mamba架构通过动态调整参数来处理长文本序列，克服了Transformer在处理长文本时的计算和内存限制。
Falcon Mamba 7B的训练数据高达5500GT，主要由RefinedWeb数据集组成，采用多阶段训练策略。
模型训练在256个H100 80GB GPU上完成，使用AdamW优化器和特定的学习率计划。
Falcon Mamba 7B在生成吞吐量和上下文长度方面优于当前的Transformer模型。
在多个基准测试中，Falcon Mamba 7B的得分超过了多个流行的Transformer模型。
TII的Falcon系列语言模型下载量已超过4500万次，成为阿联酋最成功的LLM版本之一。

❓

延伸问答

Falcon Mamba 7B模型的主要特点是什么？

Falcon Mamba 7B模型采用Mamba架构，能够在单个24GB A10 GPU上运行，无需增加内存存储，并在基准测试中超越同尺寸的Transformer模型。

Falcon Mamba 7B与Transformer模型相比有什么优势？

Falcon Mamba 7B在生成吞吐量和上下文长度方面优于当前的Transformer模型，能够处理更大的序列而不增加内存需求。

Falcon Mamba 7B的训练数据来源是什么？

Falcon Mamba 7B的训练数据高达5500GT，主要由RefinedWeb数据集组成，并添加了来自公共源的高质量技术数据、代码数据和数学数据。

Falcon Mamba 7B的许可证是什么？

Falcon Mamba 7B采用Apache 2.0许可证，支持研究和应用目的。

Falcon Mamba 7B的训练过程是怎样的？

Falcon Mamba 7B的训练在256个H100 80GB GPU上完成，采用多阶段训练策略，使用AdamW优化器和特定的学习率计划。

Falcon Mamba 7B的下载量如何？

TII的Falcon系列语言模型下载量已超过4500万次，Falcon Mamba 7B成为阿联酋最成功的LLM版本之一。

🏷️

标签

Falcon Mamba 7B Mamba架构 llama transformer 大模型开源Mamba模型文本生成任务阿布扎比技术创新研究所

➡️

继续阅读

音视频中台与传统架构有何不同
如果你正在评估音视频中台，很可能已经有一套或多套传统音视频方案在跑着了。本文不讨论理论上的优劣，直接从架构设计、资源利用、运维效率、扩展灵活性四个维度，对...
AI长上下文阅读124页后仅36%合规，注意力越长规矩越崩
顶级AI在长上下文里塞进124页公司手册后只拿36分，剩下64分全栽在看见规则却偏要硬刚上，长窗口反而成了帮凶？新出的Handbook.md测试集专门测...
从 Harness 引擎到 MetaSkill DAG 的确定性架构 - 张善友
OpenClaw.NET 的 MetaSkill DAG 不是老工作流的复辟，也不是 ReAct 的放大版。它是第三代：节点内部保留模型的判断力，节点之间...
架构系列补洞写作规划
> 本文是写作规划，不是可发布正文。目标：补齐 [index.md](./index.md) 中 15 篇「待写」空洞。Batch 1 交付正文；B...
解构Scaling Law：优化、架构、数据的三重奏
训练一个大型的神经网络，最终效果会受到非常多因素的影响，换个优化器，换个模型架构，或者换一个训练集，结果都可能截然不同。在工程实践中，我们将调试这些因素的...
Ollama vs. LM Studio vs. llama.cpp: Which Local AI Runtime Should You Use in 2026?
In this article, you will learn how Ollama, LM Studio, and llama.cpp differ a...