月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用
💡
原文中文,约3000字,阅读约需7分钟。
📝
内容提要
月之暗面团队改进了OpenAI的Muon优化器,使算力需求降低48%。新版本适用于更大模型,并验证了在分布式训练中的可行性。改进包括引入权重衰减和调整参数更新尺度,提升了训练效率和性能。
🎯
关键要点
- 月之暗面团队改进了OpenAI的Muon优化器,算力需求降低48%。
- 改进后的Muon适用于更大模型,并验证了在分布式训练中的可行性。
- 团队引入了权重衰减机制,提升了训练效率和性能。
- Muon的核心思想是通过正交化梯度更新矩阵,避免参数更新陷入局部极小。
- 改进后的Muon在1.5B参数的Llama模型上算力需求仅为AdamW的52%。
- 团队在DeepSeek架构上训练了一个16B的MoE模型,并与改进后的优化算法一同开源。
- Muon的更新幅度与AdamW保持一致,解决了超参数设置的困难。
- 分布式Muon的并行化策略最大限度地保留了原始Muon算法的数学性质。
- Muon在大规模训练中的样本效率是AdamW的1.92倍。
- Moonlight模型在多项任务上表现优异,展现了强大的竞争力。
➡️