小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

Adam Bien, an independent consultant and pioneer of zero dependencies in the enterprise world of Java, highlights the benefits of consistently using standards, regardless of whether they involve...

Podcast: From Java EE to Quarkus and LLMs: Adam Bien’s Playbook for Boring, Future‑Proof Systems

InfoQ
InfoQ · 2026-05-11T11:00:00Z

文章讨论了优化器的选择与学习率的调整,指出不同任务对优化器的需求。SGD在某些视觉任务上优于Adam,学习率过小可能导致训练缓慢和局部极小值问题。此外,梯度消失与爆炸仍是深度学习中的挑战,需要理解其在现代架构中的表现。

【Transformer 与注意力机制】06|梯度下降与反向传播

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

优化过程旨在最小化损失函数,常用方法包括随机搜索、梯度下降和随机梯度下降(SGD)。SGD通过小批量数据计算梯度,加速收敛。动量法和RMSProp等技术提高了优化效率,而Adam优化器结合了动量和RMSProp的优点,能够自适应调整学习率。

CS231n 讲义 III:优化

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-02-11T01:45:09Z

最近笔者刷到论文《Why Adam Works Better with β1=β2: The Missing Gradient Scale Invariance Principle》,顾名思义,...

Adam优化器的最优超参数是β1=β2 ?

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2026-02-04T07:47:00Z
为人工智能干杯:ADAM机器人调酒师在金骑士比赛中调制饮品

在拉斯维加斯的T-Mobile Arena,金骑士队的球迷体验到了由Richtech Robotics开发的机器人调酒师ADAM,旨在解决酒店业的劳动力短缺。ADAM通过NVIDIA的Isaac平台进行训练,能够实时识别物体并调整动作。同时,Richtech还推出了适用于工厂和仓库的新型机器人Dex。

为人工智能干杯:ADAM机器人调酒师在金骑士比赛中调制饮品

NVIDIA Blog
NVIDIA Blog · 2025-12-12T16:00:04Z

自去年提出的Muon优化器已在多个训练框架中应用,表现优异。本文介绍了从Adam切换到Muon的技术细节,包括不同版本的参数设置和注意事项。Muon专注于矩阵参数优化,用户需了解输入输出维度的定义以确保正确使用。

Muon优化器指南:快速上手与关键细节

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-11-19T15:08:00Z

本文探讨了动量机制对优化器(如SignSGD和Adam)学习率与Batch Size关系的影响。动量通过对梯度的滑动平均,等效于放大Batch Size,从而影响学习率的调整。研究表明,动量的引入使学习率与Batch Size之间的关系更加复杂,尤其在Adam中表现出新的特性。

重新思考学习率与Batch Size(四):EMA

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-09-22T06:37:00Z

本文探讨了Muon优化器在大规模LLM训练中的应用,重点分析了如何将Adam的Update RMS调整至0.2。实验结果显示,Adam的Update RMS在训练过程中保持在0.2至0.3之间,并探讨了其理论基础。模拟结果表明,Update RMS与超参数β1呈正相关,并与信噪比相关。最后,提出了一种通用的估计方法以理解Update RMS的行为。

为什么Adam的Update RMS是0.2?

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-09-02T09:35:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

Who’s Adam?最逆天的NeurIPS评审出炉了

机器之心
机器之心 · 2025-07-25T10:40:30Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,简化了数据爬取流程。

比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快

机器之心
机器之心 · 2025-07-15T02:58:16Z
专访 Nothing 设计总监 Adam Bates:手机行业有一些共识,但我们并不在乎

Nothing手机设计总监Adam Bates表示,Nothing手机追求独特性,Glyph 2.0灯光阵列提供新交互方式,用户可通过灯效获取信息,减少对屏幕的依赖。Nothing注重创造力与用户体验,力求在智能手机市场中脱颖而出。

专访 Nothing 设计总监 Adam Bates:手机行业有一些共识,但我们并不在乎

爱范儿
爱范儿 · 2025-07-04T09:04:41Z

本研究提出了速度正则化Adam(VRAdam),旨在解决传统优化算法在训练深度神经网络时的振荡和收敛问题。VRAdam通过引入基于速度的惩罚项,优化动态学习率,从而提升了图像分类和语言建模等任务的性能。

A Physics-Inspired Optimizer: Velocity Regularized Adam

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究分析了深度神经网络训练中不同优化方法的收敛速度,结果显示Adam优化器收敛速度较快,而RMSprop较慢。这为优化算法的选择提供了理论依据,提升了深度学习模型的训练效率。

Adam优化器的高阶收敛速度研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z
继VAE之后,Adam也拿到了ICLR 时间检验奖,OpenAI联创两次获奖

ICLR 2025 宣布了时间检验奖获奖论文,Adam 算法因显著提升深度学习训练效率而获奖,亚军论文引入了影响深远的注意力机制。两篇论文的作者均为该领域知名学者,值得重读以获取未来启发。

继VAE之后,Adam也拿到了ICLR 时间检验奖,OpenAI联创两次获奖

机器之心
机器之心 · 2025-04-15T13:03:49Z

本论文提出了Stable-SPAM方法,解决了4位训练中的梯度不稳定和学习率敏感问题。通过增强梯度归一化和剪切技术,Stable-SPAM显著提高了训练的稳定性和性能,优于基于Adam的模型,并减少了训练步骤。

Stable-SPAM: How to Achieve More Stability in 4-Bit Training Compared to 16-Bit Adam

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

本文提出了一种改进的耦合Adam优化器,以解决大型语言模型在学习词表示时的各向异性问题。实验结果表明,耦合Adam显著提高了嵌入质量,并优化了大规模数据集的任务性能。

Improving Embedding Representations through Coupled Adam

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-12T00:00:00Z

本研究提出了ADAM-1,一个多智能体大语言模型框架,旨在整合微生物组、临床数据和外部知识库,以提高阿尔茨海默病的检测和理解。ADAM-1在小型实验室数据集上表现出良好的效果,为该病的研究与诊断提供了新的前景。

ADAM-1: AI and Bioinformatics for Integrating Microbiome and Clinical Data in Alzheimer's Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-14T00:00:00Z
简单的SGD方法在使用一半内存的情况下匹配Adam的性能

SGD-SaI是一种改进的随机梯度下降方法,结合动量和基于信噪比的学习率调整,内存占用仅为AdamW的一半,性能相当或更优,适合训练大型模型,节省多达25GB内存。

简单的SGD方法在使用一半内存的情况下匹配Adam的性能

DEV Community
DEV Community · 2024-12-19T07:54:05Z

本研究提出SWAN优化器,通过引入预处理SGD的操作,解决了Adam优化器在大语言模型训练中的高内存开销问题。SWAN在内存占用与SGD相同的情况下,实现了与Adam相当的性能,特别是在训练LLaMa模型时,速度提升达2倍。

SWAN: Preprocessing SGD Achieves Adam-Level Performance with Significant Memory Reduction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本研究质疑自适应梯度方法的必要性,提出了一种基于梯度信噪比的学习率缩放方法SGD-SaI,显著提高了SGD的效率。在多个Transformer任务中,SGD-SaI表现优异,内存占用明显低于AdamW,展现了其实用性和鲁棒性。

不再使用Adam:初始化时的学习率缩放就是你所需要的

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码