NotionNext BLOG ·

LLaMA 3 又来掀桌子了

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

LLaMA 3 发布了 8B 和 70B 两种模型，性能显著提升。新架构和数据处理方法使预训练数据量达到 15T tokens，涵盖多语言数据。训练效率提高三倍，微调方法结合多种技术，显著改善模型推理能力。

🎯

关键要点

LLaMA 3 发布了 8B 和 70B 两种模型，性能显著提升。
新架构使用了 128K token vocabulary，提升了编码效率。
预训练数据量达到 15T tokens，包含多语言数据，代码数据增加了 4 倍。
采用分组查询注意力(GQA)提升推理效率，训练序列长度增加到 8,192。
训练效率提高三倍，开发了新训练堆栈以最大化 GPU 运行时间。
微调方法结合了监督式微调、拒绝抽样和多种优化技术，显著改善模型推理能力。

❓

延伸问答

LLaMA 3 有哪些模型版本？

LLaMA 3 发布了 8B 和 70B 两种模型。

LLaMA 3 的预训练数据量是多少？

LLaMA 3 的预训练数据量达到 15T tokens。

LLaMA 3 如何提高训练效率？

LLaMA 3 的训练效率提高了三倍，采用了新训练堆栈以最大化 GPU 运行时间。

LLaMA 3 使用了什么样的新架构？

LLaMA 3 使用了 128K token vocabulary 的新架构，提升了编码效率。

LLaMA 3 在微调方面有哪些改进？

LLaMA 3 结合了监督式微调、拒绝抽样和多种优化技术，显著改善了模型推理能力。

LLaMA 3 的多语言支持情况如何？

LLaMA 3 的预训练数据集中有超过5%是30多种语言的高质量非英语数据。

🏷️

继续阅读

Valkey 为什么这么快？盘点 Valkey 中提升性能的黑科技
Valkey是Amazon ElastiCache的核心引擎，作为高性能开源内存数据库，单节点吞吐量可达119万RPS，集群可扩展至2000节点。Valk...
存之有序，治之有矩——Agent 记忆系统的工程实践与演进
本文探讨了Agent记忆系统的工程实践与演进，分析了记忆写入纪律、Prompt Cache冲突、跨模型容量、Embedding迁移及Agent自产Skil...
eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...
基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...
刚刚，姚顺雨现身！公开回应腾讯AI落后了吗？
在腾讯云AI产业应用大会上，姚顺雨与汤道生讨论了AI的未来发展。姚顺雨指出，AI的“下半场”应聚焦于解决实际问题和寻找合适的应用场景。他认为腾讯的丰富产品...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...