Meta推出Llama 3人工智能模型 提供70B参数版本 性能大幅度提升
💡
原文中文,约900字,阅读约需3分钟。
📝
内容提要
人工智能研究院推出了经过15T个tokens训练的Llama 3模型,提供预训练和指令微调的语言模型,具有新功能和改进的推理能力,支持多语言和多模式。Meta创新了指令微调方法,提高了推理和编程性能,并引入了安全功能。Llama 3模型在云计算平台上提供,开发者可自行下载。Meta正在训练下一代Llama,希望推出多模态版本并扩大上下文支持。
🎯
关键要点
-
Meta 人工智能研究院推出 Llama 3 模型,经过 15T 个 tokens 训练,分为 8B 和 70B 参数版本。
-
Llama 3 相较于 Llama 2 提供新功能,改进推理能力,降低错误拒绝率,支持多语言和多模式。
-
Llama 3 在基准测试中性能超过 Mistral-7B、Mistral 8x22B 和 Google Gemini Pro 1.0,是开放 AI 模型中性能最好的。
-
Meta 创新指令微调方法,结合监督微调、拒绝采样、近端策略优化和直接策略优化,提高推理和编程性能。
-
Meta 引入 Llama Guard 2 和 Cyber Sec Eval 2 更新,增加 Code Shield 提高安全性。
-
Llama 3 模型现已在亚马逊 AWS 和 Google Cloud 等云计算平台上提供,开发者可自行下载。
-
Meta 正在训练下一代 Llama,最大模型超过 400B 参数,未来几个月将推出多模态版本并扩大上下文支持。
➡️