小红花·文摘

$DeepSeek-V4——迈向百万token上下文：保留V3的MoE和多token预测机制，提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)$

DeepSeek-V4——迈向百万token上下文：保留V3的MoE和多token预测机制，提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

结构之法算法之道 ·

本文扩展了AdamW模型权重的RMS渐近估计，考虑了动态的Weight Decay和学习率，推导出不同条件下的权重RMS估计公式，强调了参数变化对模型性能的影响。

AdamW的Weight RMS的渐近估计（下）

科学空间|Scientific Spaces ·

本文探讨了AdamW优化器中权重RMS的渐近估计，指出其与学习率和权重衰减相关。通过平均场近似，得出权重RMS可预估的结论，强调这一结果的反直觉性。

AdamW的Weight RMS的渐近估计（上）

科学空间|Scientific Spaces ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，简化数据爬取流程。

斯坦福：优化器「诸神之战」？AdamW 凭「稳定」胜出

机器之心 ·

MLSys’25 | 极低内存消耗：用SGD的内存成本实现AdamW的优化性能

机器之心 ·

月之暗面团队改进了OpenAI的Muon优化器，使算力需求降低48%。新版本适用于更大模型，并验证了在分布式训练中的可行性。改进包括引入权重衰减和调整参数更新尺度，提升了训练效率和性能。

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

量子位 ·

本研究针对大语言模型在训练过程中对内存的高需求，提出了一种新的优化方法APOLLO。通过近似的学习率缩放规则，该方法显著减少了内存开销，同时在预训练性能上优于AdamW，展示出对资源有限的GPU环境的友好性和更高的训练吞吐量。

APOLLO：类似SGD的内存，媲美AdamW的性能

BriefGPT - AI 论文速递 ·

Adam是一种用于基于梯度的随机目标函数优化的算法，具有易于实现、计算效率高、占用内存少等优点。它适用于数据和参数较大、非平稳目标、存在噪声和稀疏梯度的问题。实证结果表明Adam在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的Adam变体AdaMax，并分析了该算法的理论收敛性质。

AdaPlus: 将 Nesterov 动量和精确的步长调整与 AdamW 基础相结合

BriefGPT - AI 论文速递 ·