击败GPT-4o的开源模型如何炼成？关于Llama 3.1 405B，Meta都写在这篇论文里了

机器之心 ·

击败GPT-4o的开源模型如何炼成？关于Llama 3.1 405B，Meta都写在这篇论文里了

💡 原文约200字/词，阅读约需1分钟。

📝

内容提要

Llama 3.1已正式发布，上下文长度扩展至128K。405B版本的Llama 3.1能够与最佳闭源模型竞争。研究论文《Llama 3系列模型》揭示了Llama 3系列的细节。高质量模型的开发依赖于数据、规模和复杂性管理。Llama 3.1在数据质量和数量方面有了显著改进。405B模型通过将16位量化为8位，支持大规模生产推理。训练堆栈已经优化，并在后训练阶段进行了多轮对齐。Llama 3系列还包括图像识别、视频识别和语音理解的多模态扩展。Llama 3.1的生态系统已准备就绪，有超过25个合作伙伴提供服务。

🎯

关键要点

Llama 3.1正式发布，上下文长度扩展至128K，包含8B、70B和405B三个版本。
405B版本的Llama 3.1性能可与最佳闭源模型相媲美，刷新了开源基础模型的能力上限。
Meta发布了《Llama 3系列模型》论文，揭示了模型的研究细节。
Llama 3.1在数据质量和数量方面有显著改进，使用了约15万亿的多语言Token进行预训练。
405B模型通过将16位量化为8位，支持大规模生产推理，降低了计算要求。
Meta优化了训练堆栈，使用超过16K H100 GPU进行预训练。
后训练阶段通过多轮对齐完善Chat模型，采用监督微调、拒绝采样和直接偏好优化。
Meta开发了多模态扩展，具备图像识别、视频识别和语音理解能力，尚在开发中。
Meta更新许可证，允许开发者使用Llama模型的输出结果增强其他模型。
Llama 3.1生态系统已准备就绪，超过25个合作伙伴提供相关服务。

🏷️

继续阅读

开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下｜商汤SenseNova U1实测
SenseNova U1 是商汤发布的开源多模态模型，具备连续图文生成能力，能够同时生成文字和图片。该模型在信息图生成方面表现出色，采用 NEO-unif...
欧盟裁定Meta未能采取足够措施阻止儿童使用Facebook和Instagram
欧盟初步裁定Meta未能有效阻止13岁以下儿童使用Facebook和Instagram，违反数字服务法（DSA）。调查显示，Meta缺乏有效的年龄验证措施...
不卷参数卷架构，这个开源模型把图像理解和生成统一了
商汤推出了开源图像生成模型SenseNova-U1，具备高效的图文创作能力，支持复杂信息图和连贯的图文输出。其底层架构NEO-unify提升了创作效率。尽...
GPT-5.5 发布：OpenAI 这次真的在”干活”了
OpenAI发布的GPT-5.5是迄今最智能的模型，能够自主拆解和完成复杂任务，显著提升编程效率。尽管价格翻倍，但在复杂任务中的性价比有所提高。AI助手的...
银河通用LDA定义全域数据利用范式，跨本体世界动作大模型开启具身GPT-2时刻
银河通用推出的LDA-1B模型在具身智能领域实现了数据的统一利用，突破了传统模型的局限。该模型有效整合多种数据源，快速适应不同机器人，降低数据获取成本，推...
Meta收购Manus被叫停解析
Meta收购Manus的交易因未提前申报被中国政府叫停，尽管Meta可能收回投资，但其AI战略受到质疑，投资人和创始团队面临损失，整个中国AI创投行业也受...

击败GPT-4o的开源模型如何炼成？关于Llama 3.1 405B，Meta都写在这篇论文里了

内容提要

关键要点

标签

继续阅读