小红花·文摘 - 小红花技术领袖俱乐部

如何加速语言模型的训练

如何加速语言模型的训练

MachineLearningMastery.com ·

本研究提出神经热力学定律（NTL），为大语言模型训练提供理论支持，并通过热力学原理指导学习率调度，具有重要意义。

Neural Thermodynamic Law for Training Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种多幂律经验法则，揭示了大型语言模型在不同学习率调度下的预训练损失演变，能够有效预测损失曲线并优化学习率调度，超越传统方法。

A Multi-Power Law Model for Predicting Loss Curves under Different Learning Rate Schedules

BriefGPT - AI 论文速递 ·

本研究提出了一种元梯度下降（MGD）方法，旨在优化大规模机器学习模型的训练配置。MGD通过高效计算元梯度和“平滑模型训练”框架，在数据集选择和学习率调度方面显著提升了效果，优于现有的数据中毒攻击。

Optimizing Machine Learning Training with Metagradient Descent

BriefGPT - AI 论文速递 ·

解锁河谷损失景观：为何热身-稳定-衰减学习率表现优异

解锁河谷损失景观：为何热身-稳定-衰减学习率表现优异

DEV Community ·

本文探讨了热身-稳定-衰减（WSD）学习率调度在语言模型训练中的应用，研究表明WSD通过高学习率和快速衰减优化模型，效果显著优于其他方法。

Understanding Warmup-Stable-Decay Learning Rates: A Perspective from the River Valley Loss Landscape

BriefGPT - AI 论文速递 ·