土法炼钢兴趣小组的博客 ·

ZeRO

💡 原文中文，约27200字，阅读约需65分钟。

📝

内容提要

本文讨论了大规模模型训练中的并行化技术，特别是671B MoE模型的训练挑战。随着模型规模的增加，单卡显存不足以支持训练，因此需要采用数据并行、张量并行和流水线并行等多种策略。文章分析了显存消耗、通信成本及不同并行策略的优缺点，并强调了优化通信与计算重叠的重要性。最后，提出了针对不同规模模型的并行配置建议。

🎯

关键要点

单卡显存不足以支持671B MoE模型的训练，需要采用多种并行策略。
显存消耗主要包括参数、梯度、优化器状态和激活，训练70B模型的显存需求约为1120GB。
并行化的目标是平衡通信代价和计算效率，工业界的MFU目标为密集模型40%+，MoE 30%+。
并行策略包括数据并行（DP）、张量并行（TP）、流水线并行（PP）、序列并行（SP）和专家并行（EP）。
ZeRO优化器通过将状态切分到各卡上，减少显存冗余，分为三个阶段，显存需求降低到1/Ndp。
FSDP是PyTorch实现的ZeRO-3，支持全切分，适合大规模模型训练。
DeepSeek-V3通过放弃TP，采用EP和PP组合，优化了MoE模型的训练效率。
通信优化和计算重叠是提高MFU的关键，NCCL流和CUDA图的结合可以实现这一目标。
激活重计算和梯度累积技术可以有效降低显存占用，提高训练效率。
MoE模型的负载均衡是一个重要挑战，需通过动态路由和负载均衡策略来解决。

❓

延伸问答

为什么单卡显存不足以支持671B MoE模型的训练？

训练671B MoE模型需要的显存消耗包括参数、梯度、优化器状态和激活，单卡80GB显存无法满足需求。

并行化技术在大规模模型训练中有哪些策略？

主要的并行化策略包括数据并行（DP）、张量并行（TP）、流水线并行（PP）、序列并行（SP）和专家并行（EP）。

ZeRO优化器如何减少显存冗余？

ZeRO优化器通过将状态切分到各卡上，减少显存冗余，显存需求降低到1/Ndp。

DeepSeek-V3是如何优化MoE模型训练效率的？

DeepSeek-V3通过放弃TP，采用EP和PP的组合，优化了MoE模型的训练效率。

在大规模模型训练中，如何优化通信与计算的重叠？

通过结合NCCL流和CUDA图，可以实现通信与计算的重叠，从而提高MFU。

MoE模型的负载均衡面临哪些挑战？

MoE模型的负载均衡面临路由抖动和负载不均的问题，需要通过动态路由和负载均衡策略来解决。

🏷️

继续阅读

存之有序，治之有矩——Agent 记忆系统的工程实践与演进
本文探讨了Agent记忆系统的工程实践与演进，分析了记忆写入纪律、Prompt Cache冲突、跨模型容量、Embedding迁移及Agent自产Skil...
微软MAI模型发布深度解读：前沿微调成企业AI护城河
微软在2026年推出的MAI系列模型标志着其从依赖OpenAI转向自建AI模型的战略转变。MAI模型涵盖推理、编码、图像和语音等多个领域，特别是通过“前沿...
Cloudflare观测数据显示全网机器人流量已经超过真实人类产生的访问
Cloudflare数据显示，机器人流量已超过真实人类流量，达到57.5%。这一增长与AI智能体的快速采用密切相关。尽管机器人流量在HTTP请求中占比更高...
代理时代对数据科学的意义
人工智能与数据科学的交汇点正在变化，AI系统能够自主执行多步骤任务，改变了数据科学家的工作。数据科学家需要结合统计思维、编程能力和领域专业知识，同时设计和...
搜索速度提升3倍：使用Instructed-Retriever-1的并行测试时间扩展
Databricks发布了Agent Bricks知识助手的重大更新，显著提升了回答生成速度和搜索效率，搜索时间减少超过3倍，回答生成时间减少2倍。新模型...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...