小红花·文摘 - 小红花技术领袖俱乐部

Adam Bien, an independent consultant and pioneer of zero dependencies in the enterprise world of Java, highlights the benefits of consistently using standards, regardless of whether they involve...

Podcast: From Java EE to Quarkus and LLMs: Adam Bien’s Playbook for Boring, Future‑Proof Systems

InfoQ ·

文章讨论了优化器的选择与学习率的调整，指出不同任务对优化器的需求。SGD在某些视觉任务上优于Adam，学习率过小可能导致训练缓慢和局部极小值问题。此外，梯度消失与爆炸仍是深度学习中的挑战，需要理解其在现代架构中的表现。

【Transformer 与注意力机制】06｜梯度下降与反向传播

土法炼钢兴趣小组的博客 ·

优化过程旨在最小化损失函数，常用方法包括随机搜索、梯度下降和随机梯度下降（SGD）。SGD通过小批量数据计算梯度，加速收敛。动量法和RMSProp等技术提高了优化效率，而Adam优化器结合了动量和RMSProp的优点，能够自适应调整学习率。

CS231n 讲义 III：优化

Louis Aeilot's Blog ·

最近笔者刷到论文《Why Adam Works Better with β1=β2: The Missing Gradient Scale Invariance Principle》，顾名思义，...

Adam优化器的最优超参数是β1=β2 ？

科学空间|Scientific Spaces ·

为人工智能干杯：ADAM机器人调酒师在金骑士比赛中调制饮品

为人工智能干杯：ADAM机器人调酒师在金骑士比赛中调制饮品

NVIDIA Blog ·

自去年提出的Muon优化器已在多个训练框架中应用，表现优异。本文介绍了从Adam切换到Muon的技术细节，包括不同版本的参数设置和注意事项。Muon专注于矩阵参数优化，用户需了解输入输出维度的定义以确保正确使用。

Muon优化器指南：快速上手与关键细节

科学空间|Scientific Spaces ·

本文探讨了动量机制对优化器（如SignSGD和Adam）学习率与Batch Size关系的影响。动量通过对梯度的滑动平均，等效于放大Batch Size，从而影响学习率的调整。研究表明，动量的引入使学习率与Batch Size之间的关系更加复杂，尤其在Adam中表现出新的特性。

重新思考学习率与Batch Size（四）：EMA

科学空间|Scientific Spaces ·

本文探讨了Muon优化器在大规模LLM训练中的应用，重点分析了如何将Adam的Update RMS调整至0.2。实验结果显示，Adam的Update RMS在训练过程中保持在0.2至0.3之间，并探讨了其理论基础。模拟结果表明，Update RMS与超参数β1呈正相关，并与信噪比相关。最后，提出了一种通用的估计方法以理解Update RMS的行为。

为什么Adam的Update RMS是0.2？

科学空间|Scientific Spaces ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

Who’s Adam？最逆天的NeurIPS评审出炉了

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，简化了数据爬取流程。

比Adam更有效，POET从谱不变原理出发，让LLM训练又稳又快

机器之心 ·

专访 Nothing 设计总监 Adam Bates：手机行业有一些共识，但我们并不在乎

专访 Nothing 设计总监 Adam Bates：手机行业有一些共识，但我们并不在乎

爱范儿 ·

本研究提出了速度正则化Adam（VRAdam），旨在解决传统优化算法在训练深度神经网络时的振荡和收敛问题。VRAdam通过引入基于速度的惩罚项，优化动态学习率，从而提升了图像分类和语言建模等任务的性能。

A Physics-Inspired Optimizer: Velocity Regularized Adam

BriefGPT - AI 论文速递 ·

本研究分析了深度神经网络训练中不同优化方法的收敛速度，结果显示Adam优化器收敛速度较快，而RMSprop较慢。这为优化算法的选择提供了理论依据，提升了深度学习模型的训练效率。

Adam优化器的高阶收敛速度研究

BriefGPT - AI 论文速递 ·

继VAE之后，Adam也拿到了ICLR 时间检验奖，OpenAI联创两次获奖

继VAE之后，Adam也拿到了ICLR 时间检验奖，OpenAI联创两次获奖

机器之心 ·

本论文提出了Stable-SPAM方法，解决了4位训练中的梯度不稳定和学习率敏感问题。通过增强梯度归一化和剪切技术，Stable-SPAM显著提高了训练的稳定性和性能，优于基于Adam的模型，并减少了训练步骤。

Stable-SPAM: How to Achieve More Stability in 4-Bit Training Compared to 16-Bit Adam

BriefGPT - AI 论文速递 ·

本文提出了一种改进的耦合Adam优化器，以解决大型语言模型在学习词表示时的各向异性问题。实验结果表明，耦合Adam显著提高了嵌入质量，并优化了大规模数据集的任务性能。

Improving Embedding Representations through Coupled Adam

BriefGPT - AI 论文速递 ·

本研究提出了ADAM-1，一个多智能体大语言模型框架，旨在整合微生物组、临床数据和外部知识库，以提高阿尔茨海默病的检测和理解。ADAM-1在小型实验室数据集上表现出良好的效果，为该病的研究与诊断提供了新的前景。

ADAM-1: AI and Bioinformatics for Integrating Microbiome and Clinical Data in Alzheimer's Detection

BriefGPT - AI 论文速递 ·

简单的SGD方法在使用一半内存的情况下匹配Adam的性能

简单的SGD方法在使用一半内存的情况下匹配Adam的性能

DEV Community ·

本研究提出SWAN优化器，通过引入预处理SGD的操作，解决了Adam优化器在大语言模型训练中的高内存开销问题。SWAN在内存占用与SGD相同的情况下，实现了与Adam相当的性能，特别是在训练LLaMa模型时，速度提升达2倍。

SWAN: Preprocessing SGD Achieves Adam-Level Performance with Significant Memory Reduction

BriefGPT - AI 论文速递 ·

本研究质疑自适应梯度方法的必要性，提出了一种基于梯度信噪比的学习率缩放方法SGD-SaI，显著提高了SGD的效率。在多个Transformer任务中，SGD-SaI表现优异，内存占用明显低于AdamW，展现了其实用性和鲁棒性。

不再使用Adam：初始化时的学习率缩放就是你所需要的

BriefGPT - AI 论文速递 ·