优化过程旨在最小化损失函数,常用方法包括随机搜索、梯度下降和随机梯度下降(SGD)。SGD通过小批量数据计算梯度,加速收敛。动量法和RMSProp等技术提高了优化效率,而Adam优化器结合了动量和RMSProp的优点,能够自适应调整学习率。
最近笔者刷到论文《Why Adam Works Better with β1=β2: The Missing Gradient Scale Invariance Principle》,顾名思义,...
在拉斯维加斯的T-Mobile Arena,金骑士队的球迷体验到了由Richtech Robotics开发的机器人调酒师ADAM,旨在解决酒店业的劳动力短缺。ADAM通过NVIDIA的Isaac平台进行训练,能够实时识别物体并调整动作。同时,Richtech还推出了适用于工厂和仓库的新型机器人Dex。
自去年提出的Muon优化器已在多个训练框架中应用,表现优异。本文介绍了从Adam切换到Muon的技术细节,包括不同版本的参数设置和注意事项。Muon专注于矩阵参数优化,用户需了解输入输出维度的定义以确保正确使用。
本文探讨了动量机制对优化器(如SignSGD和Adam)学习率与Batch Size关系的影响。动量通过对梯度的滑动平均,等效于放大Batch Size,从而影响学习率的调整。研究表明,动量的引入使学习率与Batch Size之间的关系更加复杂,尤其在Adam中表现出新的特性。
本文探讨了Muon优化器在大规模LLM训练中的应用,重点分析了如何将Adam的Update RMS调整至0.2。实验结果显示,Adam的Update RMS在训练过程中保持在0.2至0.3之间,并探讨了其理论基础。模拟结果表明,Update RMS与超参数β1呈正相关,并与信噪比相关。最后,提出了一种通用的估计方法以理解Update RMS的行为。
机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。
机器之心数据服务现已上线,提供高效稳定的数据获取服务,简化了数据爬取流程。
Nothing手机设计总监Adam Bates表示,Nothing手机追求独特性,Glyph 2.0灯光阵列提供新交互方式,用户可通过灯效获取信息,减少对屏幕的依赖。Nothing注重创造力与用户体验,力求在智能手机市场中脱颖而出。
本研究提出了速度正则化Adam(VRAdam),旨在解决传统优化算法在训练深度神经网络时的振荡和收敛问题。VRAdam通过引入基于速度的惩罚项,优化动态学习率,从而提升了图像分类和语言建模等任务的性能。
本研究分析了深度神经网络训练中不同优化方法的收敛速度,结果显示Adam优化器收敛速度较快,而RMSprop较慢。这为优化算法的选择提供了理论依据,提升了深度学习模型的训练效率。
ICLR 2025 宣布了时间检验奖获奖论文,Adam 算法因显著提升深度学习训练效率而获奖,亚军论文引入了影响深远的注意力机制。两篇论文的作者均为该领域知名学者,值得重读以获取未来启发。
本论文提出了Stable-SPAM方法,旨在解决低位数训练中的梯度不稳定和学习率敏感问题,从而显著提升4位语言模型的训练稳定性和性能。实验结果表明,该方法优于基于Adam的模型,并减少了训练步骤。
本文提出了一种改进的耦合Adam优化器,以解决大型语言模型在学习词表示时的各向异性问题。实验结果表明,耦合Adam显著提高了嵌入质量,并优化了大规模数据集的任务性能。
本研究提出了一种新型无状态优化器框架,有效解决了训练大型语言模型的内存开销问题。实验结果表明,该方法在内存效率上表现优异,训练速度比Adam快3倍,展现出重要潜力。
本研究提出ADAM-1框架,整合微生物组、临床数据和外部知识库,填补阿尔茨海默病检测中的数据整合缺口。ADAM-1在小型实验室数据集上表现出高一致性和鲁棒性,为阿尔茨海默病的研究与诊断开辟了新前景。
SGD-SaI是一种改进的随机梯度下降方法,结合动量和基于信噪比的学习率调整,内存占用仅为AdamW的一半,性能相当或更优,适合训练大型模型,节省多达25GB内存。
本研究提出SWAN优化器,通过引入$ ext{GradNorm}$和$ ext{GradWhitening}$操作,解决了Adam优化器的高内存开销问题。在内存占用与SGD相同的情况下,SWAN的性能优于Adam,尤其在LLaMa模型训练中实现了2倍的速度提升。
本研究质疑自适应梯度方法的必要性,提出了一种基于梯度信噪比的学习率缩放方法SGD-SaI,显著提高了SGD的效率。在多个Transformer任务中,SGD-SaI表现优异,内存占用明显低于AdamW,展现了其实用性和鲁棒性。
本文介绍了ADOPT算法,这是对Adam优化算法的改进,能够在任意β₂值下实现最佳收敛速率。作者提供了ADOPT收敛的理论保证,并在某些情况下显示其优于原始的Adam算法,提升了机器学习中优化算法的鲁棒性和可靠性。
完成下面两步后,将自动完成登录并继续当前操作。