临界批量大小在预训练中的扩展性研究
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对大规模模型训练中的资源配置问题,提出并测量了临界批量大小(CBS),并在C4数据集上对85百万到12亿参数的自回归语言模型进行预训练。研究发现,CBS主要随着数据大小而扩展,而非模型大小,这一结果通过理论分析得以支持,从而为大规模预训练提供了有价值的洞见。
Kaplan和Hoffmann的预算优化模型存在预测差异。通过分析计算成本、预热时间和优化器调整等因素,修正后与Hoffmann的定律一致。学习率衰减对模型有效性影响不大,并推导出最优学习率和批次大小的扩展定律。