学习率退火的缩放法则

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

Kaplan和Hoffmann开发了用于优化预算优化模型的扩展定律,但他们的预测有所不同。通过在两个数据集上重现Kaplan的定律并识别出三个因素(计算成本、预热时间和规模优化),我们解释了这些差异。在纠正这些因素后,与Hoffmann的定律达成了一致。学习率衰减被发现对他们定律的有效性并不重要。此外,推导出了最佳学习率和批量大小的扩展定律,强调了调整AdamW的β2参数对于较小批量大小的重要性。

🎯

关键要点

  • Kaplan和Hoffmann开发了用于优化预算的扩展定律,但预测结果截然不同。

  • 通过重现Kaplan的定律,识别出计算成本、预热时间和规模优化等三个因素,解释了预测差异。

  • 纠正这些因素后,与Hoffmann的定律达成一致。

  • 学习率衰减对Hoffmann定律的有效性并不重要。

  • 推导出最优学习率和批量大小的扩展定律,强调调整AdamW的β2参数对小批量的重要性。

➡️

继续阅读