Meta推出Llama 3人工智能模型 提供70B参数版本 性能大幅度提升

💡 原文中文,约900字,阅读约需3分钟。
📝

内容提要

人工智能研究院推出了经过15T个tokens训练的Llama 3模型,提供预训练和指令微调的语言模型,具有新功能和改进的推理能力,支持多语言和多模式。Meta创新了指令微调方法,提高了推理和编程性能,并引入了安全功能。Llama 3模型在云计算平台上提供,开发者可自行下载。Meta正在训练下一代Llama,希望推出多模态版本并扩大上下文支持。

🎯

关键要点

  • Meta 人工智能研究院推出 Llama 3 模型,经过 15T 个 tokens 训练,分为 8B 和 70B 参数版本。

  • Llama 3 相较于 Llama 2 提供新功能,改进推理能力,降低错误拒绝率,支持多语言和多模式。

  • Llama 3 在基准测试中性能超过 Mistral-7B、Mistral 8x22B 和 Google Gemini Pro 1.0,是开放 AI 模型中性能最好的。

  • Meta 创新指令微调方法,结合监督微调、拒绝采样、近端策略优化和直接策略优化,提高推理和编程性能。

  • Meta 引入 Llama Guard 2 和 Cyber Sec Eval 2 更新,增加 Code Shield 提高安全性。

  • Llama 3 模型现已在亚马逊 AWS 和 Google Cloud 等云计算平台上提供,开发者可自行下载。

  • Meta 正在训练下一代 Llama,最大模型超过 400B 参数,未来几个月将推出多模态版本并扩大上下文支持。

➡️

继续阅读