小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

文章讨论了优化器的选择与学习率的调整,指出不同任务对优化器的需求。SGD在某些视觉任务上优于Adam,学习率过小可能导致训练缓慢和局部极小值问题。此外,梯度消失与爆炸仍是深度学习中的挑战,需要理解其在现代架构中的表现。

【Transformer 与注意力机制】06|梯度下降与反向传播

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文详细解析了Transformer模型的训练配方,包括超参数选择、warmup的重要性、学习率公式设计、dropout和label smoothing的应用。通过对比2017年与现代大模型的训练方法,指出核心训练策略基本保持不变,这些细节对于复现原论文的BLEU分数至关重要。

【Transformer 与注意力机制】27|原论文怎么训出来的:8 张 P100、12 小时、warmup 4000 步

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
7个提升预测模型准确性的XGBoost技巧

本文介绍了7个优化XGBoost库的Python技巧,以提升预测模型的准确性,包括调整学习率和树的数量、限制树深度、通过子采样减少过拟合、添加正则化、使用早停法、进行超参数搜索和处理类别不平衡。这些方法能显著提高模型性能。

7个提升预测模型准确性的XGBoost技巧

KDnuggets
KDnuggets · 2026-02-20T13:00:37Z

优化过程旨在最小化损失函数,常用方法包括随机搜索、梯度下降和随机梯度下降(SGD)。SGD通过小批量数据计算梯度,加速收敛。动量法和RMSProp等技术提高了优化效率,而Adam优化器结合了动量和RMSProp的优点,能够自适应调整学习率。

CS231n 讲义 III:优化

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-02-11T01:45:09Z
nanobot-sft

本文讨论了纳米机器人在监督微调(SFT)中的应用,重点在于数据构造和模型训练过程。模型通过处理用户和助手消息学习生成合适的回复,并强调了在SFT阶段模型如何有效停止输出,提出了线性衰减的学习率策略以提高训练稳定性。

nanobot-sft

plus studio
plus studio · 2026-01-18T00:00:00Z
梯度下降:机器学习优化的引擎

本文介绍了梯度下降的基本概念,作为一种迭代算法,它通过调整模型参数来最小化损失函数。过程包括计算梯度、更新参数和根据学习率调整步长。主要有三种类型:批量梯度下降、随机梯度下降和小批量梯度下降。学习率对优化的成功至关重要。

梯度下降:机器学习优化的引擎

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-02T11:00:17Z

本文探讨了终点损失的收敛速度改进,提出线性衰减学习率策略可实现$ ext{O}(1/ ext{sqrt}(T))$的收敛速度,优于常数学习率。通过推广核心恒等式,强调学习率调度的重要性,并展示了理论最佳的收敛结果。

让炼丹更科学一些(四):新恒等式,新学习率

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-12-26T02:38:00Z

本文重启“科学炼丹”专题,探讨SGD在无界域的收敛性。通过引入期望形式简化推导,得出更宽松的收敛结论,强调学习率策略的重要性,具有理论与实践的参考价值。

让炼丹更科学一些(二):将结论推广到无界域

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-12-12T02:21:00Z

权重衰减和学习率在大语言模型预训练中至关重要。本文从滑动平均的角度探讨如何合理设置这两个参数,以增强模型的记忆能力,避免遗忘早期数据,同时防止欠拟合和权重爆炸。

滑动平均视角下的权重衰减和学习率

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-12-05T05:17:00Z

本文扩展了AdamW模型权重的RMS渐近估计,考虑了动态的Weight Decay和学习率,推导出不同条件下的权重RMS估计公式,强调了参数变化对模型性能的影响。

AdamW的Weight RMS的渐近估计(下)

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-11-17T08:56:00Z

本文探讨了AdamW优化器中权重RMS的渐近估计,指出其与学习率和权重衰减相关。通过平均场近似,得出权重RMS可预估的结论,强调这一结果的反直觉性。

AdamW的Weight RMS的渐近估计(上)

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-10-01T04:51:00Z

本文探讨了动量机制对优化器(如SignSGD和Adam)学习率与Batch Size关系的影响。动量通过对梯度的滑动平均,等效于放大Batch Size,从而影响学习率的调整。研究表明,动量的引入使学习率与Batch Size之间的关系更加复杂,尤其在Adam中表现出新的特性。

重新思考学习率与Batch Size(四):EMA

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-09-22T06:37:00Z

本文分析了Muon优化器的学习率与Batch Size的关系,结果与SignSGD一致,未发现新规律。通过平均场方法简化计算,得出结论:学习率与Batch Size的关系保持不变。

重新思考学习率与Batch Size(三):Muon

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-09-15T14:52:00Z

本文探讨了平均场方法在SignSGD和SoftSignSGD学习率计算中的应用,简化了推导过程。通过平均场近似,揭示了学习率与Batch Size的关系,特别是“Surge现象”,即Batch Size增大时学习率可能减小。该方法减少了假设,计算更简便,展示了平均场的灵活性和有效性。

重新思考学习率与Batch Size(二):平均场

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-09-10T02:18:00Z

本文探讨了学习率与Batch Size的关系,尤其是在非SGD优化器中的复杂性。作者回顾了以往的分析方法,简化了推导步骤,并研究了Muon优化器的潜力。通过对SGD的分析,得出了学习率的理论最优解,指出Batch Size与训练数据量和步数的关系,并强调了噪声强度对学习率的影响。

重新思考学习率与Batch Size(一):现状

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-09-01T03:10:00Z
大型语言模型微调经验

本文分享了对大型语言模型(LLM)微调的经验,强调损失/奖励变化与测试数据性能的一致性,调整学习率和正则化惩罚,进行科学对照实验以验证想法,并在训练不顺利时才调整超参数。此外,建议在输出最终答案前处理LLM的输出过程。

大型语言模型微调经验

informal
informal · 2025-06-22T16:00:00Z

斯坦福大学CS336课程探讨了大语言模型的扩展法则,重点介绍了MUP方法在模型训练中的应用。MUP通过调整超参数,确保模型扩展时学习率稳定,简化了超参数调优。课程还分析了Cerebrus GPT、MiniCPM和DeepSeek等模型的扩展策略,强调批量大小和学习率的重要性,并通过实验验证这些理论。

斯坦福大学CS336课程:从零开始的语言建模 | 2025年春季 | 扩展法则2

Josherich的博客
Josherich的博客 · 2025-06-03T00:00:01Z

本研究探讨了大型语言模型预训练中的超参数调优,重点分析了学习率和权重衰减的关系,并提出了一种预测最佳权重衰减的新方法,为超参数选择提供理论支持。

电力线:大型语言模型预训练中的权重衰减和批处理大小的缩放法则

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z
DeepDistill:新型大语言模型推理方法超越蒸馏模型,接近最先进水平

研究论文《DeepDistill》提出了一种新方法,通过构建大型分级推理数据集,显著提升大语言模型(LLM)的推理能力。研究发现,推理训练需要更高的学习率,最终在AIME2024基准测试中实现79.2%的通过率,接近最先进水平。

DeepDistill:新型大语言模型推理方法超越蒸馏模型,接近最先进水平

DEV Community
DEV Community · 2025-04-30T09:17:13Z

本研究提出了一种新方法,通过结合成功与失败的推理路径微调大型语言模型,以增强其搜索能力。采用较小的学习率可以减缓性能下降,显著提高推理表现并减少180倍的推理时间。

Teaching Large Language Models to Reason through Learning and Forgetting

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码