《缩放规律估计指南》

本研究解决了对机器学习模型缩放规律的估计和解释不足的问题。通过收集和分析485个预训练模型的大规模数据集，提出了一套最佳实践，发现利用训练过程中的中间检查点进行拟合可以显著提高预测准确性，且相似规模的模型提供了更可靠的性能估计。这一发现为模型选择和预训练决策提供了重要参考。

Kaplan和Hoffmann等人提出了不同的预算优化模型。通过分析两个数据集，研究者发现最终层计算成本、预热时间和优化器调整是关键因素。修正后，结果与Hoffmann的“Chinchilla”定律一致。研究还表明，学习率衰减对定律影响不大，并推导出最优学习率和批次大小的定律，强调在小批次下调整AdamW的β2参数的重要性。

AdamW参数 Chinchilla定律学习率批次大小预算优化