学习率退火的缩放法则
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了神经语言模型训练过程中损失曲线的准确预测问题,提出了一种结合学习率退火的缩放法则的新方法。该方法不仅能描述每一步的整体损失曲线,还提供了对训练过程动态的理论验证,显著降低了预测大规模语言模型损失的计算成本,促进了相关研究的开展。
Kaplan和Hoffmann开发了用于优化预算优化模型的扩展定律,但他们的预测有所不同。通过在两个数据集上重现Kaplan的定律并识别出三个因素(计算成本、预热时间和规模优化),我们解释了这些差异。在纠正这些因素后,与Hoffmann的定律达成了一致。学习率衰减被发现对他们定律的有效性并不重要。此外,推导出了最佳学习率和批量大小的扩展定律,强调了调整AdamW的β2参数对于较小批量大小的重要性。