科学空间|Scientific Spaces ·

重新思考学习率与Batch Size（一）：现状

💡 原文中文，约7900字，阅读约需19分钟。

📝

内容提要

本文探讨了学习率与Batch Size的关系，尤其是在非SGD优化器中的复杂性。作者回顾了以往的分析方法，简化了推导步骤，并研究了Muon优化器的潜力。通过对SGD的分析，得出了学习率的理论最优解，指出Batch Size与训练数据量和步数的关系，并强调了噪声强度对学习率的影响。

🎯

❓

学习率与Batch Size呈线性关系，增大Batch Size需要增加训练数据量以维持相同的学习率效果。

通过泰勒展开和对损失函数的期望计算，可以得到学习率的理论最优解，公式为η* ≈ E[φ_B]ᵀg / tr(E[φ_Bφ_Bᵀ]H)。

噪声强度影响学习率的上限，信噪比越小，需要更大的Batch Size才能使用相同的最大学习率η_max。

Muon优化器的潜力在于其可能简化非SGD优化器中学习率与Batch Size的复杂关系，值得进一步研究。

SGD的学习率与Batch Size呈单调递增关系，但有上限，学习率不能无限增加。

训练数据量与训练步数之间的关系可以用公式表示，增大Batch Size时，训练步数和数据量都需要增加以达到相同效果。

🏷️

驱动推理时代：深入了解DigitalOcean数据与学习层
构建AI原生应用需要同时处理结构化和非结构化数据。DigitalOcean推出了统一的数据与学习层，支持PostgreSQL和MySQL高级版，简化数据管...
语音增强中的自监督学习：从无配对训练到基础模型先验
语音增强（SE）面临数据、目标和任务等挑战，自监督学习（SSL）逐渐成为解决方案。SSL通过未配对数据学习和生成式方法，重塑了SE的训练目标。研究表明，S...
A Problem Framing Kernel
What you need before you have a problem worth solving A few weeks ago, I caug...
个人博客网站如何变现：不依赖广告联盟的几个思路
本文探讨了博客在没有AdSense的情况下实现盈利的方法，包括：1. 联盟营销；2. 直接卖广告位；3. 接付费评测；4. 销售自己的产品；5. 寻找Ad...
Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频
Google DeepMind 发布了 Gemma 4 12B，这是一个无编码器的多模态模型，支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运...
摩根士丹利称搭载英伟达RTX SPARK N1X芯片的PC售价将达到2,900美元
摩根士丹利预测，搭载英伟达RTX SPARK N1X芯片的PC售价将达到2900美元，N1芯片设备售价为1800美元。这些高性能芯片主要面向开发者和内容创...