小红花·文摘

卡普兰和霍夫曼开发了影响深远的扩展法则，用于优化预算模型，但他们的预测有所不同。通过在两个数据集上重现卡普兰的法则，并识别与计算成本、预热时间和规模优化相关的三个因素，我们解释了这些差异。在纠正这些因素后，我们与霍夫曼的法则达成了良好的一致性。与霍夫曼的假设相反，我们发现学习率衰减对其法则的有效性并不重要。作为次要结果，我们推导出最佳学习率和批量大小的扩展法则，并发现调整AdamW的β2参数在较小批量大小时至关重要。