小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文详细解析了Transformer模型的训练配方,包括超参数选择、warmup的重要性、学习率公式设计、dropout和label smoothing的应用。通过对比2017年与现代大模型的训练方法,指出核心训练策略基本保持不变,这些细节对于复现原论文的BLEU分数至关重要。

【Transformer 与注意力机制】27|原论文怎么训出来的:8 张 P100、12 小时、warmup 4000 步

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
7个提升预测模型准确性的XGBoost技巧

本文介绍了7个优化XGBoost库的Python技巧,以提升预测模型的准确性,包括调整学习率和树的数量、限制树深度、通过子采样减少过拟合、添加正则化、使用早停法、进行超参数搜索和处理类别不平衡。这些方法能显著提高模型性能。

7个提升预测模型准确性的XGBoost技巧

KDnuggets
KDnuggets · 2026-02-20T13:00:37Z
超越网格搜索的三种超参数调优技术

本文介绍了三种高级超参数搜索方法:随机搜索、贝叶斯优化和逐步淘汰。这些方法能快速找到最佳模型配置,提升模型性能,其中贝叶斯优化效果最佳,验证准确率达到96%-97%。

超越网格搜索的三种超参数调优技术

KDnuggets
KDnuggets · 2026-01-19T15:00:12Z

本文探讨了Muon优化器在大规模LLM训练中的应用,重点分析了如何将Adam的Update RMS调整至0.2。实验结果显示,Adam的Update RMS在训练过程中保持在0.2至0.3之间,并探讨了其理论基础。模拟结果表明,Update RMS与超参数β1呈正相关,并与信噪比相关。最后,提出了一种通用的估计方法以理解Update RMS的行为。

为什么Adam的Update RMS是0.2?

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-09-02T09:35:00Z
检索优化器:贝叶斯优化

Redis介绍了检索优化器及其在评估驱动开发中的重要性。通过贝叶斯优化,用户可以有效选择超参数,减少实验次数,优化过程关注于最大化目标函数,如召回率和延迟。检索优化器利用Redis的嵌入缓存功能,提高了测试速度。

检索优化器:贝叶斯优化

Redis Blog
Redis Blog · 2025-07-21T00:00:00Z
大型语言模型微调经验

本文分享了对大型语言模型(LLM)微调的经验,强调损失/奖励变化与测试数据性能的一致性,调整学习率和正则化惩罚,进行科学对照实验以验证想法,并在训练不顺利时才调整超参数。此外,建议在输出最终答案前处理LLM的输出过程。

大型语言模型微调经验

informal
informal · 2025-06-22T16:00:00Z

斯坦福大学CS336课程探讨了大语言模型的扩展法则,重点介绍了MUP方法在模型训练中的应用。MUP通过调整超参数,确保模型扩展时学习率稳定,简化了超参数调优。课程还分析了Cerebrus GPT、MiniCPM和DeepSeek等模型的扩展策略,强调批量大小和学习率的重要性,并通过实验验证这些理论。

斯坦福大学CS336课程:从零开始的语言建模 | 2025年春季 | 扩展法则2

Josherich的博客
Josherich的博客 · 2025-06-03T00:00:01Z

本研究提出了一种新方法,解决大型语言模型的幻觉和过时知识问题,分析超参数对检索增强生成(RAG)系统的影响,发现最佳超参数组合能提高响应速度并保持高检索准确性,为临床决策支持等应用提供重要参考。

优化检索增强生成:超参数对性能和效率的影响分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z
人工智能术语

本文讨论了机器学习的关键概念,包括权重、偏差、超参数、前向传播、反向传播、激活函数以及L1和L2正则化与梯度。

人工智能术语

DEV Community
DEV Community · 2025-05-04T02:05:01Z

本研究提出了DualOptimizer,通过自适应学习率和解耦动量因子,解决了现有机器遗忘方法在超参数上的敏感性问题。实验证明,该方法显著提高了机器遗忘的有效性和稳定性,适用性广泛。

DualOptim: Enhancing Efficacy and Stability in Machine Unlearning with Dual Optimizers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z
斯坦福CS336:从零开始的语言建模 | 2025年春季 | 架构与超参数

斯坦福CS336课程讲解了语言模型架构与超参数,强调实践经验的重要性。课程回顾了变换器的基本结构,探讨了不同架构变体及超参数选择对模型性能的影响。现代模型普遍采用预归一化和RMS归一化,且大多数模型不再使用偏置项。同时,课程讨论了位置嵌入的演变,强调相对位置嵌入的有效性。

斯坦福CS336:从零开始的语言建模 | 2025年春季 | 架构与超参数

Josherich的博客
Josherich的博客 · 2025-04-20T00:00:01Z
<span class=“js_title_inner“>关于 DeepSeek-R1 API 评测,至少有 7 个误区</span>

硅基流动发布了大模型API评测指南,指出当前评测中的误区,强调API与应用效果的区别,以及超参数设置对测试结果的影响。评测者需关注随机性,建议采用双盲测试以确保客观性。同时,硅基流动正在改进服务,提供更稳定的API版本。

<span class=“js_title_inner“>关于 DeepSeek-R1 API 评测,至少有 7 个误区</span>

OneFlow深度学习框架
OneFlow深度学习框架 · 2025-03-21T03:45:39Z
没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了

何恺明与Yann LeCun合作提出了一种新型Transformer架构Dynamic Tanh(DyT),可替代传统归一化层。DyT通过可学习参数实现输入的非线性压缩,实验结果显示其在多项任务中表现优于或等同于传统方法,且无需调整超参数,具有提升训练和推理速度的潜力。

没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了

机器之心
机器之心 · 2025-03-14T07:54:49Z

本研究提出了一种通用的超参数缩放法则,解决了大型语言模型的超参数优化问题。研究发现,最佳学习率与模型参数和数据规模呈幂律关系,而批次大小主要与数据规模相关。这为模型性能优化提供了有效工具。

Predictable Scaling: Part One - Optimal Hyperparameter Scaling Laws in Pretraining Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

本研究提出了一种针对NAdamW的超参数设置方法,旨在资源有限的情况下有效优化神经网络。实验结果表明,该方法在AlgoPerf基准上优于传统方法,解决了深度学习中的超参数调优问题。

Fast Training of Neural Networks with Minimal Tuning Using Precomputed Hyperparameter Lists

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z
开源赛道太挤了!月之暗面开源新版Muon优化器

月之暗面开源了改进版Muon优化器,计算效率提升2倍,优于AdamW。新模型Moonlight在相同预算下表现更佳,支持大规模训练,无需调整超参数。

开源赛道太挤了!月之暗面开源新版Muon优化器

机器之心
机器之心 · 2025-02-24T05:21:30Z

本文提出了一种新方法,解决了在缺乏目标模型超参数知识时的成员推断攻击(MIA)局限性。通过匹配目标模型与影子模型的输出分布来选择影子模型的超参数,实现了几乎无差异的攻击性能。此外,研究表明,差分隐私转移学习中未考虑的隐私风险对MIA脆弱性影响不大。

基于评分的成员推断攻击中的超参数

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z
学习率

学习率是机器学习中的超参数,决定模型学习速度。合适的学习率对模型性能至关重要,过高可能导致过拟合,过低则可能影响性能。学习率主要分为固定学习率和自适应学习率,选择方法包括网格搜索、随机搜索和学习率调度器。

学习率

DEV Community
DEV Community · 2025-02-08T10:48:04Z

本文提出了一种自动化模型合并框架,克服了手动设计超参数合并策略的局限性。该框架利用多保真近似方法,支持单目标和多目标优化,能够在有限计算成本下自动发现有效的合并方案。

Okay, I'll merge it myself: A Multi-Fidelity Framework for Automated Model Merging

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-06T00:00:00Z

本研究提出了一种自适应法则基础转化(ALT)方法,旨在解决传统时间序列分类在处理复杂数据时的挑战。ALT通过可变长度时间窗口有效捕获特征模式,保持少量超参数,从而实现先进的分类性能。

Adaptive Law-Based Transformation (ALT): A Lightweight Feature Representation for Time Series Classification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码