小红花·文摘

Kaplan和Hoffmann的预算优化模型存在预测差异。通过分析计算成本、预热时间和优化器调整等因素，修正后与Hoffmann的定律一致。学习率衰减对模型有效性影响不大，并推导出最优学习率和批次大小的扩展定律。

临界批量大小在预训练中的扩展性研究

BriefGPT - AI 论文速递 ·

Kaplan和Hoffmann等人提出的预算优化模型的扩展定律预测结果存在差异。通过分析计算成本、预热时间和优化器调整等因素，修正后与Hoffmann的定律一致。研究发现学习率衰减对模型有效性影响不大，并推导出最优学习率和批次大小的扩展定律。

推理缩放法则的简单模型

BriefGPT - AI 论文速递 ·

Kaplan和Hoffmann等人提出了不同的预算优化模型。通过分析两个数据集，研究者发现最终层计算成本、预热时间和优化器调整是关键因素。修正后，结果与Hoffmann的“Chinchilla”定律一致。研究还表明，学习率衰减对定律影响不大，并推导出最优学习率和批次大小的定律，强调在小批次下调整AdamW的β2参数的重要性。

Kaplan和Hoffmann开发了用于优化预算优化模型的扩展定律，但他们的预测有所不同。通过在两个数据集上重现Kaplan的定律并识别出三个因素（计算成本、预热时间和规模优化），我们解释了这些差异。在纠正这些因素后，与Hoffmann的定律达成了一致。学习率衰减被发现对他们定律的有效性并不重要。此外，推导出了最佳学习率和批量大小的扩展定律，强调了调整AdamW的β2参数对于较小批量大小的重要性。

学习率退火的缩放法则

BriefGPT - AI 论文速递 ·

临界批量大小在预训练中的扩展性研究

推理缩放法则的简单模型

《缩放规律估计指南》

学习率退火的缩放法则