临界批量大小在预训练中的扩展性研究

本研究针对大规模模型训练中的资源配置问题，提出并测量了临界批量大小（CBS），并在C4数据集上对85百万到12亿参数的自回归语言模型进行预训练。研究发现，CBS主要随着数据大小而扩展，而非模型大小，这一结果通过理论分析得以支持，从而为大规模预训练提供了有价值的洞见。

Kaplan和Hoffmann的预算优化模型存在预测差异。通过分析计算成本、预热时间和优化器调整等因素，修正后与Hoffmann的定律一致。学习率衰减对模型有效性影响不大，并推导出最优学习率和批次大小的扩展定律。

Hoffmann定律学习率批次大小预测差异预算优化