机器之心 ·

开源赛道太挤了！月之暗面开源新版Muon优化器

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

月之暗面开源了改进版Muon优化器，计算效率提升2倍，优于AdamW。新模型Moonlight在相同预算下表现更佳，支持大规模训练，无需调整超参数。

🎯

关键要点

月之暗面开源了改进版Muon优化器，计算效率提升2倍，优于AdamW。
新模型Moonlight在相同预算下表现更佳，支持大规模训练，无需调整超参数。
Muon优化器在小型语言模型训练中表现出色，但在扩展到更大模型时性能提升减弱。
引入权重衰减和一致的RMS更新技术，使Muon能够在大规模训练中直接使用。
Moonlight模型使用Muon进行了5.7万亿tokens的训练，刷新了当前的性能指标。
Muon在训练中仅需约52%的训练FLOPs即可达到与AdamW相当的性能。
分布式Muon基于ZeRO-1的解决方案，优化了数据并行的优化器状态。
实验结果表明，使用Muon的模型在语言、数学和编码任务上显著优于使用AdamW的模型。
Muon的权重更新在MoE模型中表现突出，提升了模型的多样性。

❓

延伸问答

Muon优化器相比于AdamW有什么优势？

Muon优化器的计算效率提升了2倍，且在小型语言模型训练中表现出色，尤其在大规模训练中无需调整超参数。

Moonlight模型的训练规模和效果如何？

Moonlight模型使用Muon进行了5.7万亿tokens的训练，刷新了当前的性能指标，在相同预算下表现优于其他模型。

Muon优化器在大规模训练中如何保持性能？

Muon通过引入权重衰减和一致的RMS更新技术，确保在大规模训练中能够直接使用，保持性能稳定。

Muon优化器的计算效率如何？

Muon优化器在训练中仅需约52%的训练FLOPs即可达到与AdamW相当的性能，显示出其高效性。

分布式Muon与普通的AdamW优化器有什么不同？

分布式Muon基于ZeRO-1的解决方案，优化了数据并行的优化器状态，引入了额外的操作以提高效率。

使用Muon优化器的模型在任务上表现如何？

使用Muon优化器的模型在语言、数学和编码任务上显著优于使用AdamW的模型，显示出更好的性能。

🏷️

继续阅读

SmartPerfetto 开源：面向 Android Trace 分析的 Perfetto AI Assistant
SmartPerfetto 已完整开源，提供性能分析工具，简化 trace 分析过程。该项目结合 AI 助手，允许用户通过自然语言提问，自动查询和分析数据...
OpenLess — 开源跨平台语音输入与提示词生成工具
OpenLess 是一个开源的跨平台语音输入工具，基于 Rust、Tauri、React 和 TypeScript 构建，支持 macOS、Windows...
我如何在4个月内完成15个freeCodeCamp认证：一个结构化的学习旅程
这篇文章讲述了作者在高中期间通过freeCodeCamp获得15个认证的经历。他从基础网页设计开始，逐步学习JavaScript、Python等编程语言，...
Warp的赌注：开源以对抗闭源竞争对手
Warp，一个基于Rust的开发环境，宣布其客户端开源，旨在通过社区合作加速产品开发。公司认为AI辅助开发将改变软件构建方式，强调开放性和可定制性，以应对市场竞争。
开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下｜商汤SenseNova U1实测
SenseNova U1 是商汤发布的开源多模态模型，具备连续图文生成能力，能够同时生成文字和图片。该模型在信息图生成方面表现出色，采用 NEO-unif...
开源LocalSend：局域网免流量直连，文件传输傻瓜操作全拆解
LocalSend是一款通过局域网实现快速文件传输的工具，省去互联网中转，提升速度与隐私。用户只需打开应用，选择文件，点击设备即可完成传输，操作简单快捷，...