非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1

非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1

💡 原文中文,约3400字,阅读约需8分钟。
📝

内容提要

阿布扎比技术创新研究所发布了开源Mamba模型Falcon Mamba 7B,采用Mamba架构处理文本生成任务。该模型无需增加内存存储,可在单个24GB A10 GPU上运行。与同尺寸的Transformer模型相比,Falcon Mamba 7B在基准测试中表现更好。

🎯

关键要点

  • 阿布扎比技术创新研究所发布了开源Mamba模型Falcon Mamba 7B,采用Mamba架构处理文本生成任务。

  • Falcon Mamba 7B无需增加内存存储,可在单个24GB A10 GPU上运行。

  • Falcon Mamba 7B在基准测试中超越了同尺寸的Transformer模型,如Meta的Llama 3 8B和Mistral 7B。

  • Falcon Mamba 7B分为基础版本、指令微调版本、4bit版本和指令微调4bit版本。

  • 该模型采用Apache 2.0许可证,支持研究和应用目的。

  • Falcon Mamba 7B是TII开源的第四个模型,也是首个Mamba SSLM架构模型。

  • Mamba架构通过动态调整参数来处理长文本序列,克服了Transformer在处理长文本时的计算和内存限制。

  • Falcon Mamba 7B的训练数据高达5500GT,主要由RefinedWeb数据集组成,采用多阶段训练策略。

  • 模型训练在256个H100 80GB GPU上完成,使用AdamW优化器和特定的学习率计划。

  • Falcon Mamba 7B在生成吞吐量和上下文长度方面优于当前的Transformer模型。

  • 在多个基准测试中,Falcon Mamba 7B的得分超过了多个流行的Transformer模型。

  • TII的Falcon系列语言模型下载量已超过4500万次,成为阿联酋最成功的LLM版本之一。

延伸问答

Falcon Mamba 7B模型的主要特点是什么?

Falcon Mamba 7B模型采用Mamba架构,能够在单个24GB A10 GPU上运行,无需增加内存存储,并在基准测试中超越同尺寸的Transformer模型。

Falcon Mamba 7B与Transformer模型相比有什么优势?

Falcon Mamba 7B在生成吞吐量和上下文长度方面优于当前的Transformer模型,能够处理更大的序列而不增加内存需求。

Falcon Mamba 7B的训练数据来源是什么?

Falcon Mamba 7B的训练数据高达5500GT,主要由RefinedWeb数据集组成,并添加了来自公共源的高质量技术数据、代码数据和数学数据。

Falcon Mamba 7B的许可证是什么?

Falcon Mamba 7B采用Apache 2.0许可证,支持研究和应用目的。

Falcon Mamba 7B的训练过程是怎样的?

Falcon Mamba 7B的训练在256个H100 80GB GPU上完成,采用多阶段训练策略,使用AdamW优化器和特定的学习率计划。

Falcon Mamba 7B的下载量如何?

TII的Falcon系列语言模型下载量已超过4500万次,Falcon Mamba 7B成为阿联酋最成功的LLM版本之一。

🏷️

标签

➡️

继续阅读