土法炼钢兴趣小组的博客 ·

【大模型基础设施工程】08：MoE 训练工程

💡 原文中文，约25000字，阅读约需60分钟。

📝

内容提要

2024年，混合专家（MoE）架构成为大模型的主流，开源项目如Mixtral和DeepSeek推动了其发展。MoE通过减少激活参数显著降低计算成本，同时提升模型表达能力，适合算力充裕的场景。关键技术包括细粒度专家、共享专家和改进的负载均衡策略。未来，MoE将向更大规模和动态专家数发展。

🎯

关键要点

2024年，混合专家（MoE）架构成为大模型的主流，开源项目如Mixtral和DeepSeek推动了其发展。
MoE通过减少激活参数显著降低计算成本，同时提升模型表达能力，适合算力充裕的场景。
MoE的关键技术包括细粒度专家、共享专家和改进的负载均衡策略。
未来，MoE将向更大规模和动态专家数发展。

❓

延伸问答

什么是混合专家（MoE）架构？

混合专家（MoE）架构是一种通过减少激活参数来降低计算成本，同时提升模型表达能力的深度学习模型架构，适合算力充裕的场景。

MoE架构的关键技术有哪些？

MoE的关键技术包括细粒度专家、共享专家和改进的负载均衡策略。

MoE如何降低计算成本？

MoE通过让每个token只路由到K个专家，从而显著减少激活参数，降低计算成本，FLOPs减少70-90%。

未来MoE的发展趋势是什么？

未来MoE将向更大规模和动态专家数发展，进一步提升模型的表达能力和计算效率。

MoE在训练和推理中的优势和劣势是什么？

MoE在训练中具有显著的计算成本优势，但在推理时显存需求较高，且对小批量推理不友好。

有哪些开源项目推动了MoE的发展？

开源项目如Mixtral和DeepSeek推动了MoE的发展，使其成为大模型的主流架构。

🏷️

继续阅读

【大模型基础设施工程】05：训练全景：Pre-train、SFT、RLHF、DPO、蒸馏
大模型训练应视为流水线，分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战，数据质量至关重要。预训练需处理大量干净数据以确保模型...
【大模型基础设施工程】01：大模型基础设施全景 —— 训练、推理、RAG、Agent、观测
本文探讨了大模型基础设施的必要性与发展历程，强调大模型的特点，如计算和内存密集、状态重、故障常态化及高成本。系列文章将涵盖从硬件到应用的五层模型，帮助工程...
【大模型基础设施工程】02：GPU 计算入门——SM、Tensor Core、HBM、NVLink
本文探讨了GPU在大模型训练中的优势，特别是与CPU的对比。GPU通过大量弱核和简化控制实现高算力密度，适合处理大规模矩阵运算。分析了GPU的执行模型、内...
【大模型基础设施工程】07：Megatron-LM 与 DeepSpeed
本文探讨了大模型训练中的开源框架，包括Megatron-LM、DeepSpeed和FSDP2。Megatron-LM专注于张量并行，适合超大模型；Deep...
【大模型基础设施工程】14：量化工程 —— INT8 / FP8 / FP4 / AWQ / GPTQ
本文探讨了量化在大模型推理中的重要性，强调通过将模型权重和激活从高精度压缩到低精度，显著降低显存和带宽需求。量化提高了推理效率，降低了成本，使得在有限硬件...
【大模型基础设施工程】19：Agent 框架工程
本文讨论了大模型基础设施中的Agent工程，重点在于Agent的演进、核心概念及框架。Agent通过规划、执行和反思完成任务，涉及LangChain、Au...