机器之心 ·

Meta深夜开源Llama 4！首次采用MoE，惊人千万token上下文，竞技场超越DeepSeek

💡 原文中文，约5400字，阅读约需13分钟。

📝

内容提要

Meta在周末发布了最新的AI模型系列Llama 4，包括Llama 4 Scout、Maverick和Behemoth。这些模型经过大量数据训练，具备强大的视觉理解能力，特别是Llama 4 Maverick在多项基准测试中表现优异，超越竞争对手。Scout和Maverick支持长达1000万token的上下文，适用于多种应用，且采用混合专家架构，提升推理效率和性能。

🎯

关键要点

Meta发布了最新AI模型系列Llama 4，包括Scout、Maverick和Behemoth。
Llama 4模型经过大量数据训练，具备强大的视觉理解能力。
Llama 4 Maverick在多项基准测试中表现优异，超越竞争对手。
Scout和Maverick支持长达1000万token的上下文，适用于多种应用。
Llama 4 Scout是全球最佳的多模态模型，拥有170亿激活参数和16个专家。
Llama 4 Maverick在推理和编程方面表现出色，性价比高。
Llama 4 Behemoth是Meta最强大的模型之一，仍在训练中。
所有Llama 4模型均采用原生多模态设计，支持图像和文本的结合。
Llama 4 Scout支持行业领先的1000万token上下文长度。
Meta采用混合专家架构提高训练和推理效率。
Llama 4通过在200种语言上进行预训练，支持开源微调工作。
Llama 4 Maverick在图像和文本理解方面提供行业领先的性能。
Meta对后训练流程进行了全面改进，以提升模型的推理能力。
Llama 4架构使用无位置嵌入的交错注意力层，增强长上下文泛化能力。
Llama 4 Behemoth是一个多模态混合专家模型，拥有2880亿激活参数。
Meta对强化学习方案进行了优化，以提升模型的推理和编码能力。
Llama 4 Scout和Maverick现已开放下载。

🔎

延伸解读

Llama 4的多模态优势

Llama 4系列模型采用原生多模态设计，能够同时处理文本和图像输入。这种设计使得模型在视觉理解和语言处理方面表现出色，尤其适用于需要结合多种信息源的应用场景，如图像问答和多文档摘要。用户在选择模型时，应关注其多模态能力，以满足特定的应用需求。

混合专家架构的效率提升

Llama 4首次采用混合专家（MoE）架构，这种架构在推理时仅激活部分参数，从而提高了计算效率。这意味着在相同的计算资源下，模型可以提供更高的性能。对于需要高效推理的应用，选择基于MoE架构的模型将有助于降低成本和延迟。

长上下文处理的潜力

Llama 4 Scout和Maverick支持长达1000万token的上下文，这在行业内处于领先地位。这一特性为个性化任务和复杂推理提供了新的可能性。开发者在设计应用时，应考虑如何利用这一优势来提升用户体验和任务完成度。

❓

延伸问答

Llama 4模型系列包含哪些具体模型？

Llama 4模型系列包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。

Llama 4 Scout的主要特点是什么？

Llama 4 Scout拥有170亿激活参数和16个专家，支持长达1000万token的上下文，是全球最佳的多模态模型。

Llama 4 Maverick在基准测试中的表现如何？

Llama 4 Maverick在多项基准测试中表现优异，超越了GPT-4o和Gemini 2.0 Flash，并在推理和编程方面取得了与DeepSeek v3相当的结果。

Llama 4 Behemoth的训练状态如何？

Llama 4 Behemoth仍在训练中，是Meta最强大的模型之一，表现优于多个竞争对手。

Llama 4模型采用了什么样的架构？

Llama 4模型采用了混合专家架构（MoE），提高了训练和推理效率。

用户如何获取Llama 4模型？

用户可以在llama.com和Hugging Face上下载Llama 4 Scout和Llama 4 Maverick模型。

🏷️