结构之法算法之道 ·

大模型并行训练指南：通俗理解Megatron-DeepSpeed之模型并行与数据并行

💡 原文中文，约11300字，阅读约需27分钟。

📝

内容提要

本文是关于在Jean Zay上训练Megatron-DeepSpeed模型的学习笔记。使用了384张NVIDIA A100 80GB GPU和32张备用GPU，采用了数据并行、张量并行和流水线并行等技术。训练过程中遇到了硬件故障和其他问题，但最终成功完成了训练。

🎯

关键要点

本文是关于在Jean Zay上训练Megatron-DeepSpeed模型的学习笔记。
使用了384张NVIDIA A100 80GB GPU和32张备用GPU，采用了数据并行、张量并行和流水线并行等技术。
训练过程中遇到了硬件故障和其他问题，但最终成功完成了训练。
BLOOM模型架构与GPT3相似，增加了一些改进。
训练硬件包括384张GPU、AMD EPYC处理器和512GB内存。
训练数据集为41.5TB，包含46种语言，最终转换为350B个词元。
Megatron-DeepSpeed结合了DeepSpeed的ZeRO分片、数据并行和张量并行技术。
数据并行通过复制模型到多个GPU，加快训练速度。
ZeRO数据并行只存储部分模型参数，减少内存占用。
张量并行将张量分成多个块，允许在不同GPU上并行处理。
流水线并行通过将模型层分布在多个GPU上，减少GPU闲置时间。
DP、PP和TP的结合称为3D并行，提升训练效率。
BF16优化器用于训练，避免FP16溢出问题。
使用CUDA融合核函数提高GPU计算效率。
数据加载器高效处理样本，确保训练过程平滑。
在词嵌入层后添加LayerNorm以提高训练稳定性。
使用AliBi替换普通位置嵌入，支持更长序列的推理。
训练过程中遇到硬件故障和其他问题，但成功完成训练。

🏷️

继续阅读

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”
PRISM团队的研究表明，监督微调（SFT）并未促进强化学习（RL），反而可能导致模型性能下降。研究提出了SFT、分布对齐和RL的三阶段流程，强调在多模态...
8B模型做生物实验：实验步骤顺序不乱、剂量无幻觉｜ICLR 2026
上海人工智能实验室与复旦、上海交通大学团队提出了Thoth模型，旨在生成可执行的生物实验protocol。该模型通过结构化推理，确保实验步骤的合理性和准确...
腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准
腾讯推出的轻量级机器翻译模型Hy-MT1.5-1.8B-1.25bit，支持33种语言和1056个翻译方向，翻译效果超越部分大型开源模型。该模型参数仅18...
Sinch 最新数据显示，74% 的企业已撤回 AI 代理
AI行业面临新挑战，尽管62%的企业已成功部署AI代理，但74%已撤回或关闭这些项目。Sinch报告指出，治理不足使企业难以维持AI成果，且对信任和安全的...
大模型不只是猜下一个词：猜词猜出了智能的雏形
大语言模型（LLM）不仅仅是预测下一个词的工具。虽然其训练任务是词汇预测，但为了提高准确性，模型必须学习语法、常识和推理等深层结构。这些能力使得模型在新场...
OpenClaw.NET 外部 CLI 预设系统：从零编写第三方 CLI 集成指南
本文介绍了OpenClaw.NET的External CLI Preset系统，重点讲解了其架构设计与扩展方法。该系统旨在简化命令行工具的配置，确保安全性...

大模型并行训练指南：通俗理解Megatron-DeepSpeed之模型并行与数据并行

内容提要

关键要点

标签

继续阅读