小红花·文摘 - 小红花技术领袖俱乐部

7个提升预测模型准确性的XGBoost技巧

7个提升预测模型准确性的XGBoost技巧

KDnuggets ·

超越网格搜索的三种超参数调优技术

超越网格搜索的三种超参数调优技术

KDnuggets ·

本文探讨了Muon优化器在大规模LLM训练中的应用，重点分析了如何将Adam的Update RMS调整至0.2。实验结果显示，Adam的Update RMS在训练过程中保持在0.2至0.3之间，并探讨了其理论基础。模拟结果表明，Update RMS与超参数β1呈正相关，并与信噪比相关。最后，提出了一种通用的估计方法以理解Update RMS的行为。

为什么Adam的Update RMS是0.2？

科学空间|Scientific Spaces ·

检索优化器：贝叶斯优化

检索优化器：贝叶斯优化

Redis Blog ·

大型语言模型微调经验

informal ·

斯坦福大学CS336课程探讨了大语言模型的扩展法则，重点介绍了MUP方法在模型训练中的应用。MUP通过调整超参数，确保模型扩展时学习率稳定，简化了超参数调优。课程还分析了Cerebrus GPT、MiniCPM和DeepSeek等模型的扩展策略，强调批量大小和学习率的重要性，并通过实验验证这些理论。

斯坦福大学CS336课程：从零开始的语言建模 | 2025年春季 | 扩展法则2

Josherich的博客 ·

本研究提出了一种新方法，解决大型语言模型的幻觉和过时知识问题，分析超参数对检索增强生成（RAG）系统的影响，发现最佳超参数组合能提高响应速度并保持高检索准确性，为临床决策支持等应用提供重要参考。

优化检索增强生成：超参数对性能和效率的影响分析

BriefGPT - AI 论文速递 ·

人工智能术语

人工智能术语

DEV Community ·

本研究提出了DualOptimizer，通过自适应学习率和解耦动量因子，解决了现有机器遗忘方法在超参数上的敏感性问题。实验证明，该方法显著提高了机器遗忘的有效性和稳定性，适用性广泛。

DualOptim: Enhancing Efficacy and Stability in Machine Unlearning with Dual Optimizers

BriefGPT - AI 论文速递 ·

斯坦福CS336：从零开始的语言建模 | 2025年春季 | 架构与超参数

斯坦福CS336：从零开始的语言建模 | 2025年春季 | 架构与超参数

Josherich的博客 ·

＜span class=“js_title_inner“＞关于 DeepSeek-R1 API 评测，至少有 7 个误区＜/span＞

＜span class=“js_title_inner“＞关于 DeepSeek-R1 API 评测，至少有 7 个误区＜/span＞

OneFlow深度学习框架 ·

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

机器之心 ·

本研究提出了一种通用的超参数缩放法则，解决了大型语言模型的超参数优化问题。研究发现，最佳学习率与模型参数和数据规模呈幂律关系，而批次大小主要与数据规模相关。这为模型性能优化提供了有效工具。

Predictable Scaling: Part One - Optimal Hyperparameter Scaling Laws in Pretraining Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种针对NAdamW的超参数设置方法，旨在资源有限的情况下有效优化神经网络。实验结果表明，该方法在AlgoPerf基准上优于传统方法，解决了深度学习中的超参数调优问题。

Fast Training of Neural Networks with Minimal Tuning Using Precomputed Hyperparameter Lists

BriefGPT - AI 论文速递 ·

开源赛道太挤了！月之暗面开源新版Muon优化器

开源赛道太挤了！月之暗面开源新版Muon优化器

机器之心 ·

本文提出了一种新方法，解决了在缺乏目标模型超参数知识时的成员推断攻击（MIA）局限性。通过匹配目标模型与影子模型的输出分布来选择影子模型的超参数，实现了几乎无差异的攻击性能。此外，研究表明，差分隐私转移学习中未考虑的隐私风险对MIA脆弱性影响不大。

基于评分的成员推断攻击中的超参数

BriefGPT - AI 论文速递 ·

学习率

学习率

DEV Community ·

本文提出了一种自动化模型合并框架，克服了手动设计超参数合并策略的局限性。该框架利用多保真近似方法，支持单目标和多目标优化，能够在有限计算成本下自动发现有效的合并方案。

Okay, I'll merge it myself: A Multi-Fidelity Framework for Automated Model Merging

BriefGPT - AI 论文速递 ·

本研究提出了一种自适应法则基础转化（ALT）方法，旨在解决传统时间序列分类在处理复杂数据时的挑战。ALT通过可变长度时间窗口有效捕获特征模式，保持少量超参数，从而实现先进的分类性能。

Adaptive Law-Based Transformation (ALT): A Lightweight Feature Representation for Time Series Classification

BriefGPT - AI 论文速递 ·

交叉验证是评估机器学习模型性能的重要方法，通过将数据分成多个部分进行训练和测试，帮助识别过拟合和欠拟合。常见的技术包括K折交叉验证、分层K折交叉验证和留一交叉验证。交叉验证提高模型的可靠性，优化超参数，确保有效利用所有数据点。

交叉验证完全指南

KDnuggets ·