小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
7个提升预测模型准确性的XGBoost技巧

本文介绍了7个优化XGBoost库的Python技巧,以提升预测模型的准确性,包括调整学习率和树的数量、限制树深度、通过子采样减少过拟合、添加正则化、使用早停法、进行超参数搜索和处理类别不平衡。这些方法能显著提高模型性能。

7个提升预测模型准确性的XGBoost技巧

KDnuggets
KDnuggets · 2026-02-20T13:00:37Z
超越网格搜索的三种超参数调优技术

本文介绍了三种高级超参数搜索方法:随机搜索、贝叶斯优化和逐步淘汰。这些方法能快速找到最佳模型配置,提升模型性能,其中贝叶斯优化效果最佳,验证准确率达到96%-97%。

超越网格搜索的三种超参数调优技术

KDnuggets
KDnuggets · 2026-01-19T15:00:12Z

本文探讨了Muon优化器在大规模LLM训练中的应用,重点分析了如何将Adam的Update RMS调整至0.2。实验结果显示,Adam的Update RMS在训练过程中保持在0.2至0.3之间,并探讨了其理论基础。模拟结果表明,Update RMS与超参数β1呈正相关,并与信噪比相关。最后,提出了一种通用的估计方法以理解Update RMS的行为。

为什么Adam的Update RMS是0.2?

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-09-02T09:35:00Z
检索优化器:贝叶斯优化

Redis介绍了检索优化器及其在评估驱动开发中的重要性。通过贝叶斯优化,用户可以有效选择超参数,减少实验次数,优化过程关注于最大化目标函数,如召回率和延迟。检索优化器利用Redis的嵌入缓存功能,提高了测试速度。

检索优化器:贝叶斯优化

Redis Blog
Redis Blog · 2025-07-21T00:00:00Z
大型语言模型微调经验

本文分享了对大型语言模型(LLM)微调的经验,强调损失/奖励变化与测试数据性能的一致性,调整学习率和正则化惩罚,进行科学对照实验以验证想法,并在训练不顺利时才调整超参数。此外,建议在输出最终答案前处理LLM的输出过程。

大型语言模型微调经验

informal
informal · 2025-06-22T16:00:00Z

斯坦福大学CS336课程探讨了大语言模型的扩展法则,重点介绍了MUP方法在模型训练中的应用。MUP通过调整超参数,确保模型扩展时学习率稳定,简化了超参数调优。课程还分析了Cerebrus GPT、MiniCPM和DeepSeek等模型的扩展策略,强调批量大小和学习率的重要性,并通过实验验证这些理论。

斯坦福大学CS336课程:从零开始的语言建模 | 2025年春季 | 扩展法则2

Josherich的博客
Josherich的博客 · 2025-06-03T00:00:01Z

本研究提出了一种新方法,解决大型语言模型的幻觉和过时知识问题,分析超参数对检索增强生成(RAG)系统的影响,发现最佳超参数组合能提高响应速度并保持高检索准确性,为临床决策支持等应用提供重要参考。

优化检索增强生成:超参数对性能和效率的影响分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z
人工智能术语

本文讨论了机器学习的关键概念,包括权重、偏差、超参数、前向传播、反向传播、激活函数以及L1和L2正则化与梯度。

人工智能术语

DEV Community
DEV Community · 2025-05-04T02:05:01Z

本研究提出了DualOptimizer,通过自适应学习率和解耦动量因子,解决了现有机器遗忘方法在超参数上的敏感性问题。实验证明,该方法显著提高了机器遗忘的有效性和稳定性,适用性广泛。

DualOptim: Enhancing Efficacy and Stability in Machine Unlearning with Dual Optimizers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z
斯坦福CS336:从零开始的语言建模 | 2025年春季 | 架构与超参数

斯坦福CS336课程讲解了语言模型架构与超参数,强调实践经验的重要性。课程回顾了变换器的基本结构,探讨了不同架构变体及超参数选择对模型性能的影响。现代模型普遍采用预归一化和RMS归一化,且大多数模型不再使用偏置项。同时,课程讨论了位置嵌入的演变,强调相对位置嵌入的有效性。

斯坦福CS336:从零开始的语言建模 | 2025年春季 | 架构与超参数

Josherich的博客
Josherich的博客 · 2025-04-20T00:00:01Z
<span class=“js_title_inner“>关于 DeepSeek-R1 API 评测,至少有 7 个误区</span>

硅基流动发布了大模型API评测指南,指出当前评测中的误区,强调API与应用效果的区别,以及超参数设置对测试结果的影响。评测者需关注随机性,建议采用双盲测试以确保客观性。同时,硅基流动正在改进服务,提供更稳定的API版本。

<span class=“js_title_inner“>关于 DeepSeek-R1 API 评测,至少有 7 个误区</span>

OneFlow深度学习框架
OneFlow深度学习框架 · 2025-03-21T03:45:39Z
没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了

何恺明与Yann LeCun合作提出了一种新型Transformer架构Dynamic Tanh(DyT),可替代传统归一化层。DyT通过可学习参数实现输入的非线性压缩,实验结果显示其在多项任务中表现优于或等同于传统方法,且无需调整超参数,具有提升训练和推理速度的潜力。

没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了

机器之心
机器之心 · 2025-03-14T07:54:49Z

本研究提出了一种通用的超参数缩放法则,解决了大型语言模型的超参数优化问题。研究发现,最佳学习率与模型参数和数据规模呈幂律关系,而批次大小主要与数据规模相关。这为模型性能优化提供了有效工具。

Predictable Scaling: Part One - Optimal Hyperparameter Scaling Laws in Pretraining Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

本研究提出了一种针对NAdamW的超参数设置方法,旨在资源有限的情况下有效优化神经网络。实验结果表明,该方法在AlgoPerf基准上优于传统方法,解决了深度学习中的超参数调优问题。

Fast Training of Neural Networks with Minimal Tuning Using Precomputed Hyperparameter Lists

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z
开源赛道太挤了!月之暗面开源新版Muon优化器

月之暗面开源了改进版Muon优化器,计算效率提升2倍,优于AdamW。新模型Moonlight在相同预算下表现更佳,支持大规模训练,无需调整超参数。

开源赛道太挤了!月之暗面开源新版Muon优化器

机器之心
机器之心 · 2025-02-24T05:21:30Z

本文提出了一种新方法,解决了在缺乏目标模型超参数知识时的成员推断攻击(MIA)局限性。通过匹配目标模型与影子模型的输出分布来选择影子模型的超参数,实现了几乎无差异的攻击性能。此外,研究表明,差分隐私转移学习中未考虑的隐私风险对MIA脆弱性影响不大。

基于评分的成员推断攻击中的超参数

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z
学习率

学习率是机器学习中的超参数,决定模型学习速度。合适的学习率对模型性能至关重要,过高可能导致过拟合,过低则可能影响性能。学习率主要分为固定学习率和自适应学习率,选择方法包括网格搜索、随机搜索和学习率调度器。

学习率

DEV Community
DEV Community · 2025-02-08T10:48:04Z

本文提出了一种自动化模型合并框架,克服了手动设计超参数合并策略的局限性。该框架利用多保真近似方法,支持单目标和多目标优化,能够在有限计算成本下自动发现有效的合并方案。

Okay, I'll merge it myself: A Multi-Fidelity Framework for Automated Model Merging

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-06T00:00:00Z

本研究提出了一种自适应法则基础转化(ALT)方法,旨在解决传统时间序列分类在处理复杂数据时的挑战。ALT通过可变长度时间窗口有效捕获特征模式,保持少量超参数,从而实现先进的分类性能。

Adaptive Law-Based Transformation (ALT): A Lightweight Feature Representation for Time Series Classification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z

交叉验证是评估机器学习模型性能的重要方法,通过将数据分成多个部分进行训练和测试,帮助识别过拟合和欠拟合。常见的技术包括K折交叉验证、分层K折交叉验证和留一交叉验证。交叉验证提高模型的可靠性,优化超参数,确保有效利用所有数据点。

交叉验证完全指南

KDnuggets
KDnuggets · 2025-01-13T13:00:42Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码