跨參數調整與優化器的擴展指數

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

卡普兰和霍夫曼开发了影响深远的扩展法则,用于优化预算模型,但他们的预测有所不同。通过在两个数据集上重现卡普兰的法则,并识别与计算成本、预热时间和规模优化相关的三个因素,我们解释了这些差异。在纠正这些因素后,我们与霍夫曼的法则达成了良好的一致性。与霍夫曼的假设相反,我们发现学习率衰减对其法则的有效性并不重要。作为次要结果,我们推导出最佳学习率和批量大小的扩展法则,并发现调整AdamW的β2参数在较小批量大小时至关重要。

🎯

关键要点

  • 卡普兰和霍夫曼开发了扩展法则用于优化预算模型,但预测结果不同。
  • 通过重现卡普兰的法则,识别三个因素解释了预测差异:计算成本、预热时间和规模优化。
  • 纠正这些因素后,与霍夫曼的法则达成良好一致性。
  • 学习率衰减对霍夫曼法则的有效性并不重要,反驳了霍夫曼的假设。
  • 推导出最佳学习率和批量大小的扩展法则,发现调整AdamW的β2参数在小批量时至关重要。
➡️

继续阅读