The Verge ·

Meta称Llama 3优于大多数其他模型，包括Gemini

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Meta发布了Llama 3，这是其大型语言模型的下一代，具有更好的多样性、减少拒绝回答问题的能力和更强的推理能力。Llama 3在基准测试中表现优于Google的Gemma、Gemini、Mistral 7B和Anthropic的Claude 3等类似规模的模型，并在人工评估中获得高分。未来，Llama 3将推出更大规模的模型，以便处理更长的指令和数据，并能够进行更多模态的回应。

🎯

关键要点

Meta发布了Llama 3，这是其大型语言模型的下一代，具有更好的多样性和推理能力。
Llama 3在基准测试中表现优于Google的Gemma、Gemini、Mistral 7B和Anthropic的Claude 3等模型。
Llama 3目前有两个模型权重，分别为8B和70B参数，主要提供文本响应。
Llama 3在回答问题时表现出更少的拒绝回答的情况，并且理解指令的能力增强。
Meta表示，Llama 3在MMLU基准测试中表现优于Gemma 7B和Mistral 7B。
人类评估者对Llama 3的评分高于其他模型，包括OpenAI的GPT-3.5。
Meta为人类评估者创建了新的数据集，以模拟Llama 3的实际使用场景。
Llama 3预计将推出更大规模的模型，能够处理更长的指令和数据，并进行更多模态的回应。

❓

延伸问答

Llama 3与其他模型相比有哪些优势？

Llama 3在多样性、推理能力和减少拒绝回答问题的能力上优于大多数其他模型，包括Google的Gemini和Anthropic的Claude 3。

Llama 3的参数规模有哪些？

Llama 3目前有两个模型权重，分别为8B和70B参数。

Llama 3在基准测试中的表现如何？

Llama 3在MMLU基准测试中表现优于Gemma 7B和Mistral 7B，并且70B版本稍微超过了Gemini Pro 1.5。

Meta是如何评估Llama 3的性能的？

Meta为人类评估者创建了新的数据集，模拟Llama 3的实际使用场景，并在多个用例中进行评估。

Llama 3未来有什么计划？

Meta计划推出更大规模的Llama 3模型，能够处理更长的指令和数据，并进行更多模态的回应。

Llama 3在人工评估中表现如何？

人类评估者对Llama 3的评分高于其他模型，包括OpenAI的GPT-3.5。

🏷️

继续阅读

在国际人工智能竞争中成为参与者所需的条件
文章讨论了国际人工智能发展的关键因素，包括适应当地语言和文化的模型需求、全球半导体供应链的挑战，以及风险投资对国际AI公司的关注。PVP支持早期AI公司，...
微软新模型MAI-Code-1-Flash：比Claude Haiku强还省60%Token
微软新发布的MAI-Code-1-Flash编程模型专注于代码生成，声称能比Claude Haiku节省60%的Token。该模型适合简单任务，执行效率高...
微软押注企业AI竞赛将依赖数据上下文而非模型能力
微软在Build 2026开发者大会上推出了Microsoft Fabric，旨在解决企业AI中的数据上下文问题。新平台包括HorizonDB数据库、GP...
特朗普签署行政命令，要求在发布前审查人工智能模型
特朗普签署行政命令，要求AI公司在发布前自愿向政府分享其模型，以促进安全创新并增强网络安全。该命令强调AI行业的成功与创新不应受到过度监管，同时承认新技术...
在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能
NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B，拥有30亿参数，支持多种视觉定位任务。其核心创新为并行框解码（PBD），显著提...
金融机构为何趋向于交易基础模型以构建自身智能
金融机构正在采用交易基础模型，构建统一的智能系统，以克服现有模型的孤立性。通过大型AI系统，机构能够更好地理解消费者行为，提升反欺诈和信用评分等领域的表现...