科学空间|Scientific Spaces ·

重新思考学习率与Batch Size（四）：EMA

💡 原文中文，约11300字，阅读约需27分钟。

📝

内容提要

本文探讨了动量机制对优化器（如SignSGD和Adam）学习率与Batch Size关系的影响。动量通过对梯度的滑动平均，等效于放大Batch Size，从而影响学习率的调整。研究表明，动量的引入使学习率与Batch Size之间的关系更加复杂，尤其在Adam中表现出新的特性。

🎯

❓

动量机制通过对梯度的滑动平均，等效于放大Batch Size，从而使学习率与Batch Size之间的关系变得更加复杂。

SignSGD的Update RMS总是1，而Adam的Update RMS通常小于1，主要差异在于动量的引入。

动量机制的引入使得随着Batch Size增大，Adam的学习率应减小，这可能加速“Surge现象”的出现。

“Surge现象”指当Batch Size超过某个阈值后，最优学习率随着Batch Size的增大而减少。

动量机制在SignSGDM和Muon中都表现出将Batch Size放大到特定倍数的作用，类似于在Adam中的表现。

动量机制的引入相当于将SGD的Batch Size放大到$ rac{1 + eta_1}{1 - eta_1}$倍。

🏷️

肖恩·托马斯：期待Postgres 19：查询提示
Postgres 19引入了pg_plan_advice和pg_stash_advice模块，提供查询建议功能，帮助优化器选择更好的执行计划。此功能允许D...
23学习周刊-总第266期-2026年第23周
本周刊聚焦运维、Go语言和Vue技术生态，推荐多个优秀项目，包括基于SwiftUI的Mac终端应用muxy、轻量级剪贴板管理器Buffer和Rust开发的...
The latest AI news we announced in May 2026
May AI recap
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
MAHA希望将棉花打造成新的牛脂
In between beef tallow fries, raw milk, and vaccine denialism, Make America H...
深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...