小红花·文摘

文章讨论了优化器的选择与学习率的调整，指出不同任务对优化器的需求。SGD在某些视觉任务上优于Adam，学习率过小可能导致训练缓慢和局部极小值问题。此外，梯度消失与爆炸仍是深度学习中的挑战，需要理解其在现代架构中的表现。

【Transformer 与注意力机制】06｜梯度下降与反向传播

土法炼钢兴趣小组的博客 ·

本文详细解析了Transformer模型的训练配方，包括超参数选择、warmup的重要性、学习率公式设计、dropout和label smoothing的应用。通过对比2017年与现代大模型的训练方法，指出核心训练策略基本保持不变，这些细节对于复现原论文的BLEU分数至关重要。

【Transformer 与注意力机制】27｜原论文怎么训出来的：8 张 P100、12 小时、warmup 4000 步

土法炼钢兴趣小组的博客 ·

7个提升预测模型准确性的XGBoost技巧

KDnuggets ·

优化过程旨在最小化损失函数，常用方法包括随机搜索、梯度下降和随机梯度下降（SGD）。SGD通过小批量数据计算梯度，加速收敛。动量法和RMSProp等技术提高了优化效率，而Adam优化器结合了动量和RMSProp的优点，能够自适应调整学习率。

CS231n 讲义 III：优化

Louis Aeilot's Blog ·

nanobot-sft

plus studio ·

梯度下降：机器学习优化的引擎

MachineLearningMastery.com ·

本文探讨了终点损失的收敛速度改进，提出线性衰减学习率策略可实现$ ext{O}(1/ ext{sqrt}(T))$的收敛速度，优于常数学习率。通过推广核心恒等式，强调学习率调度的重要性，并展示了理论最佳的收敛结果。

让炼丹更科学一些（四）：新恒等式，新学习率

科学空间|Scientific Spaces ·

本文重启“科学炼丹”专题，探讨SGD在无界域的收敛性。通过引入期望形式简化推导，得出更宽松的收敛结论，强调学习率策略的重要性，具有理论与实践的参考价值。

让炼丹更科学一些（二）：将结论推广到无界域

科学空间|Scientific Spaces ·

权重衰减和学习率在大语言模型预训练中至关重要。本文从滑动平均的角度探讨如何合理设置这两个参数，以增强模型的记忆能力，避免遗忘早期数据，同时防止欠拟合和权重爆炸。

滑动平均视角下的权重衰减和学习率

科学空间|Scientific Spaces ·

本文扩展了AdamW模型权重的RMS渐近估计，考虑了动态的Weight Decay和学习率，推导出不同条件下的权重RMS估计公式，强调了参数变化对模型性能的影响。

AdamW的Weight RMS的渐近估计（下）

科学空间|Scientific Spaces ·

本文探讨了AdamW优化器中权重RMS的渐近估计，指出其与学习率和权重衰减相关。通过平均场近似，得出权重RMS可预估的结论，强调这一结果的反直觉性。

AdamW的Weight RMS的渐近估计（上）

科学空间|Scientific Spaces ·

本文探讨了动量机制对优化器（如SignSGD和Adam）学习率与Batch Size关系的影响。动量通过对梯度的滑动平均，等效于放大Batch Size，从而影响学习率的调整。研究表明，动量的引入使学习率与Batch Size之间的关系更加复杂，尤其在Adam中表现出新的特性。

重新思考学习率与Batch Size（四）：EMA

科学空间|Scientific Spaces ·

本文分析了Muon优化器的学习率与Batch Size的关系，结果与SignSGD一致，未发现新规律。通过平均场方法简化计算，得出结论：学习率与Batch Size的关系保持不变。

重新思考学习率与Batch Size（三）：Muon

科学空间|Scientific Spaces ·

本文探讨了平均场方法在SignSGD和SoftSignSGD学习率计算中的应用，简化了推导过程。通过平均场近似，揭示了学习率与Batch Size的关系，特别是“Surge现象”，即Batch Size增大时学习率可能减小。该方法减少了假设，计算更简便，展示了平均场的灵活性和有效性。

重新思考学习率与Batch Size（二）：平均场

科学空间|Scientific Spaces ·

本文探讨了学习率与Batch Size的关系，尤其是在非SGD优化器中的复杂性。作者回顾了以往的分析方法，简化了推导步骤，并研究了Muon优化器的潜力。通过对SGD的分析，得出了学习率的理论最优解，指出Batch Size与训练数据量和步数的关系，并强调了噪声强度对学习率的影响。

重新思考学习率与Batch Size（一）：现状

科学空间|Scientific Spaces ·

大型语言模型微调经验

informal ·

斯坦福大学CS336课程探讨了大语言模型的扩展法则，重点介绍了MUP方法在模型训练中的应用。MUP通过调整超参数，确保模型扩展时学习率稳定，简化了超参数调优。课程还分析了Cerebrus GPT、MiniCPM和DeepSeek等模型的扩展策略，强调批量大小和学习率的重要性，并通过实验验证这些理论。

斯坦福大学CS336课程：从零开始的语言建模 | 2025年春季 | 扩展法则2

Josherich的博客 ·

本研究探讨了大型语言模型预训练中的超参数调优，重点分析了学习率和权重衰减的关系，并提出了一种预测最佳权重衰减的新方法，为超参数选择提供理论支持。

电力线：大型语言模型预训练中的权重衰减和批处理大小的缩放法则

BriefGPT - AI 论文速递 ·

DeepDistill：新型大语言模型推理方法超越蒸馏模型，接近最先进水平

DEV Community ·

本研究提出了一种新方法，通过结合成功与失败的推理路径微调大型语言模型，以增强其搜索能力。采用较小的学习率可以减缓性能下降，显著提高推理表现并减少180倍的推理时间。

Teaching Large Language Models to Reason through Learning and Forgetting

BriefGPT - AI 论文速递 ·