卡普兰和霍夫曼开发了影响深远的扩展法则,用于优化预算模型,但他们的预测有所不同。通过在两个数据集上重现卡普兰的法则,并识别与计算成本、预热时间和规模优化相关的三个因素,我们解释了这些差异。在纠正这些因素后,我们与霍夫曼的法则达成了良好的一致性。与霍夫曼的假设相反,我们发现学习率衰减对其法则的有效性并不重要。作为次要结果,我们推导出最佳学习率和批量大小的扩展法则,并发现调整AdamW的β2参数在较小批量大小时至关重要。
完成下面两步后,将自动完成登录并继续当前操作。