量子位 ·

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

月之暗面团队改进了OpenAI的Muon优化器，使算力需求降低48%。新版本适用于更大模型，并验证了在分布式训练中的可行性。改进包括引入权重衰减和调整参数更新尺度，提升了训练效率和性能。

🎯

❓

Muon优化器的算力需求比AdamW降低了48%。

改进后的Muon优化器适用于更大模型，包括1.5B参数的Llama模型和16B的MoE模型。

Muon优化器引入了权重衰减机制和调整参数更新尺度，以提升训练效率和性能。

分布式Muon通过梯度聚合通信和并行计算正交化更新量，最大限度地保留了原始Muon算法的数学性质。

Moonlight模型在英语理解、代码生成、数学推理和中文理解等任务上表现优异，展现了强大的竞争力。

Muon的核心思想是通过正交化梯度更新矩阵，避免参数更新陷入局部极小。

🏷️

HostKVM香港优化线路 VPS 限时 8 折：4GB 内存/2 核/40G SSD 仅需 $9.6/月
HostKVM推出香港VPS夏季特惠，所有线路享受8折优惠，针对内地客户优化，具备低延迟和高带宽性价比，支持信用卡和支付宝等多种支付方式。
便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
在自主数据库时代，人类的需求为何不会消失
Percona联合创始人Vadim Tkachenko在会议上指出，未来数据库管理员将转变为数据架构师，日常维护将由自动化和人工智能处理，人类将专注于数据...
台积电难以跟上人工智能需求：‘我们只能支持这么多’
台积电面临满足美国客户需求的挑战，尽管在美国扩建工厂。CEO魏哲家表示，客户需求过高，生产能力有限，可能需要很长时间才能满足。预计到2027年，半导体市场...
在Vibe编码时代使OWASP前十名更具影响力
2025年OWASP前十名更新将重点从“过时组件”转向软件供应链安全，新增内存安全和“vibe编码”意识项，反映了开发者和网络应用安全领域对关键安全风险的共识。
B站宣布启动AI创造公开赛打造中国版Build in Public