量子位 ·

每2秒吃透一道高数大题！华为终于揭秘准万亿MoE昇腾训练系统全流程

💡 原文中文，约5200字，阅读约需13分钟。

📝

内容提要

华为推出Pangu Ultra MoE训练系统，采用国产技术实现高效训练，支持超大规模模型。该系统每2秒处理一道高数题，显著提升训练效率和算力利用率，突破多项技术瓶颈。

🎯

关键要点

华为推出Pangu Ultra MoE训练系统，采用国产技术实现高效训练。
该系统每2秒处理一道高数题，显著提升训练效率和算力利用率。
系统支持超大规模模型，达到行业领先水平。
华为披露了高效打通大稀疏比MoE强化学习后训练框架的关键技术。
当前MoE训练面临六大技术挑战，包括并行策略配置困难和通信瓶颈。
华为通过智能选择并行策略和全局动态负载平衡等技术提升训练集群利用率。
采用分层All-to-All通信去冗余机制，降低专家并行通信开销。
通过优化算子调度和内存管理，提升昇腾单节点算力。
首次披露高性能可扩展的RL后训练关键技术，支持多种灵活部署模式。
Pangu Ultra MoE模型拥有7180亿参数，具备高综合性能和大稀疏比。
训练系统具有强泛化性，可扩展至更大规模参数模型和集群。

❓

延伸问答

华为的Pangu Ultra MoE训练系统有什么特点？

华为的Pangu Ultra MoE训练系统采用国产技术，支持超大规模模型，每2秒处理一道高数题，显著提升训练效率和算力利用率。

华为如何解决MoE训练中的技术挑战？

华为通过智能选择并行策略、全局动态负载平衡和分层All-to-All通信等技术，解决了并行策略配置、通信瓶颈和负载不均等六大挑战。

Pangu Ultra MoE模型的参数量是多少？

Pangu Ultra MoE模型拥有7180亿个参数。

华为的训练系统如何提升算力利用率？

华为通过优化算子调度、内存管理和采用高效的并行策略，显著提升了昇腾单节点的算力利用率。

Pangu Ultra MoE训练系统的吞吐能力如何？

在后训练阶段，Pangu Ultra MoE训练系统在昇腾CloudMatrix 384超节点集群中实现了每超节点35K Tokens/s的高吞吐能力。

华为的训练系统支持哪些并行策略？

华为的训练系统支持张量并行、数据并行、专家并行和流水线并行等多种并行策略的动态无缝切换。

🏷️

继续阅读

原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
TIL：发布压力是系统本身的问题，不是发布流程的问题
发布压力源于系统本身，而非发布流程。团队在发版前常感紧张，因系统潜在问题在发布时暴露。职责不清、知识集中、日志不详、告警失灵及环境不一致等因素加剧了发布风...
线上剧本杀「多房间 + 多角色 + 强流程」的实时音视频架构
线上剧本杀结合多房间、角色权限和严格流程，技术复杂度高于普通视频聊天。关键在于动态音频拓扑、信息隔离和流程引擎。DM可控制房间和广播信息，玩家可在不同房间...
规模化架构：如何将视频会议从单服务器扩展到高可用系统
视频会议的扩展面临挑战，需分三个阶段进行架构设计：单节点阶段适合初期验证，水平扩展阶段需分离媒体处理与编排，以确保高可用性并消除单点故障。通过智能放置和自...
为什么Java在大程序里比C++和Rust更快？系统思维取胜
在大规模程序中，Java的性能通常优于C++和Rust。底层语言为了控制和最坏情况表现，牺牲了全局优化能力，导致内存管理和并发处理效率低下。Java通过灵...
Cursor降低价格并增加企业支出控制，迎接“代币经济”变革
本周AI编码领域发生了重要变化，GitHub的Copilot结束固定订阅模式，转向基于使用量的计费，引发用户强烈反响。Linux基金会成立Tokenomi...