学习率退火的缩放法则

本研究解决了神经语言模型训练过程中损失曲线的准确预测问题，提出了一种结合学习率退火的缩放法则的新方法。该方法不仅能描述每一步的整体损失曲线，还提供了对训练过程动态的理论验证，显著降低了预测大规模语言模型损失的计算成本，促进了相关研究的开展。

Kaplan和Hoffmann开发了用于优化预算优化模型的扩展定律，但他们的预测有所不同。通过在两个数据集上重现Kaplan的定律并识别出三个因素（计算成本、预热时间和规模优化），我们解释了这些差异。在纠正这些因素后，与Hoffmann的定律达成了一致。学习率衰减被发现对他们定律的有效性并不重要。此外，推导出了最佳学习率和批量大小的扩展定律，强调了调整AdamW的β2参数对于较小批量大小的重要性。

AdamW Hoffmann Kaplan 学习率预算优化