小红花·文摘

文章讨论了优化器的选择与学习率的调整，指出不同任务对优化器的需求。SGD在某些视觉任务上优于Adam，学习率过小可能导致训练缓慢和局部极小值问题。此外，梯度消失与爆炸仍是深度学习中的挑战，需要理解其在现代架构中的表现。

【Transformer 与注意力机制】06｜梯度下降与反向传播

土法炼钢兴趣小组的博客 ·

优化过程旨在最小化损失函数，常用方法包括随机搜索、梯度下降和随机梯度下降（SGD）。SGD通过小批量数据计算梯度，加速收敛。动量法和RMSProp等技术提高了优化效率，而Adam优化器结合了动量和RMSProp的优点，能够自适应调整学习率。

CS231n 讲义 III：优化

Louis Aeilot's Blog ·

本文探讨了SGD的收敛性质，特别是终点损失与理论最优值的关系。通过理论推导，证明了训练结束时权重与最优值的接近程度，并强调了平均损失收敛与终点损失收敛的相似性，为训练实践提供了理论支持。

让炼丹更科学一些（三）：SGD的终点损失收敛

科学空间|Scientific Spaces ·

本文重启“科学炼丹”专题，探讨SGD在无界域的收敛性。通过引入期望形式简化推导，得出更宽松的收敛结论，强调学习率策略的重要性，具有理论与实践的参考价值。

让炼丹更科学一些（二）：将结论推广到无界域

科学空间|Scientific Spaces ·

本文探讨了学习率与Batch Size的关系，尤其是在非SGD优化器中的复杂性。作者回顾了以往的分析方法，简化了推导步骤，并研究了Muon优化器的潜力。通过对SGD的分析，得出了学习率的理论最优解，指出Batch Size与训练数据量和步数的关系，并强调了噪声强度对学习率的影响。

重新思考学习率与Batch Size（一）：现状

科学空间|Scientific Spaces ·

本文探讨了约束优化中“最速下降方向”与梯度的关系，强调不同范数对最速下降方向的影响。通过分析SGD在超球面上的应用，提出了“最小作用量原理”，并讨论了在约束条件下的参数更新优化方法。

流形上的最速下降：1. SGD + 超球面

科学空间|Scientific Spaces ·

本研究探讨了DP-SGD训练中噪声对梯度方向的负面影响，提出了几何扰动策略GeoDP，显著提高模型效率，减少方向噪声，同时确保隐私保护。实验结果表明，该方法在多个数据集和模型上均有效。

技术报告：分析和优化 DP-SGD 扰动的完整版本

BriefGPT - AI 论文速递 ·

本研究针对差分隐私随机梯度下降（DP-SGD）中选择最优裁剪阈值C的挑战，提出了动态裁剪DP-SGD（DC-SGD）框架。通过利用差分隐私直方图估计梯度范数分布并动态调整裁剪阈值C，显著降低了超参数调优的负担，实验证明其在超参数调优上比DP-SGD快多达9倍，并在CIFAR10数据集上提高了10.62%的准确率。

动态裁剪差分隐私SGD：基于梯度范数分布估计的动态裁剪

BriefGPT - AI 论文速递 ·

MLSys’25 | 极低内存消耗：用SGD的内存成本实现AdamW的优化性能

机器之心 ·

本研究探讨了调度自由优化器与加速SGD变体的理论联系，发现AdEMAMix在语言建模任务中表现优异，并提出了在不同批量设置下仍能保持良好性能的简化版本。

无调度优化器、AdEMAMix与加速SGD变体之间的联系

BriefGPT - AI 论文速递 ·

本研究解决了去中心化学习中代理模型通信所带来的隐私泄露问题。提出的Whisper D-SGD是一种新颖的协方差方法，通过在代理之间生成相关的隐私噪声，优化噪声协方差，实现网络范围的噪声抵消。实验结果表明，Whisper D-SGD显著降低了差分隐私的实用性能差距，并提升了模型在同等隐私保障下的表现。

Whisper D-SGD：代理之间的相关噪声以实现差分隐私去中心化学习

BriefGPT - AI 论文速递 ·

本研究提出了一种双层闲聊去中心化并行随机梯度下降框架，旨在解决微控制器单元上部署去中心化联邦学习时的连接不稳定和网络动态问题。该方法在CIFAR-10数据集上验证了与中心化联邦学习相当的准确性，展示了在资源受限环境中的可扩展学习潜力。

Decentralized Resource Sharing in TinyML: Wireless Bilayer Gossip Parallel SGD for Collaborative Learning

BriefGPT - AI 论文速递 ·

简单的SGD方法在使用一半内存的情况下匹配Adam的性能

DEV Community ·

本研究提出SWAN优化器，通过引入预处理SGD的操作，解决了Adam优化器在大语言模型训练中的高内存开销问题。SWAN在内存占用与SGD相同的情况下，实现了与Adam相当的性能，特别是在训练LLaMa模型时，速度提升达2倍。

SWAN: Preprocessing SGD Achieves Adam-Level Performance with Significant Memory Reduction

BriefGPT - AI 论文速递 ·

本研究针对大语言模型在训练过程中对内存的高需求，提出了一种新的优化方法APOLLO。通过近似的学习率缩放规则，该方法显著减少了内存开销，同时在预训练性能上优于AdamW，展示出对资源有限的GPU环境的友好性和更高的训练吞吐量。

APOLLO：类似SGD的内存，媲美AdamW的性能

BriefGPT - AI 论文速递 ·

批量、小批量与随机梯度下降

DEV Community ·

本研究提出DP-PSASC方法，通过非单调自适应缩放梯度替代传统剪切，改善小梯度重加权，提升模型性能，同时确保隐私保护。

Enhancing DP-SGD with Non-Monotonic Adaptive Gradient Scaling

BriefGPT - AI 论文速递 ·

本研究探讨了DP-SGD超参数对隐私保护机器学习算法性能的影响，揭示了剪切阈值与学习率之间的关系，并量化了其重要性，为优化隐私与效用的权衡提供了新思路。

R+R: Understanding the Impact of Hyperparameters in DP-SGD

BriefGPT - AI 论文速递 ·

文章介绍了在PyTorch中使用Batch、Mini-Batch和随机梯度下降（SGD）的示例。通过DataLoader()实现数据集洗牌，但未设置批量大小。详细描述了数据集准备、模型、损失函数和优化器的配置，并进行模型训练和测试。使用L1损失函数和SGD优化器，训练100个周期。最后展示了训练和测试数据的可视化及损失曲线。

在PyTorch中不使用`DataLoader()`的批量梯度下降示例

DEV Community ·

研究深入分析了Adam优化算法在训练语言模型时比SGD更有优势，主要因为其有效利用了$ _ ext{infty}$几何。新的收敛分析显示，在特定条件下，Adam的表现显著提升，尤其在GPT-2和ResNet模型中得到了验证。

Adam Utilizes the $ ext{l}_ ext{infty}$ Geometry of Loss Landscapes through Coordinate Adaptivity

BriefGPT - AI 论文速递 ·