时间的重要性:适用于任意预算的规模定律
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
研究发现,神经网络在训练时间、数据集大小和模型大小上有预测性的提高。在训练早期,神经网络以 $1/ extit {width}$ 的速度收敛到无限宽度动力学,但在后期表现为 $ extit {width}^{-c}$ 的速度。数据的重复重用可能导致训练和测试损失之间的差距逐渐增大。
🎯
关键要点
-
神经网络在训练时间、数据集大小和模型大小上表现出预测性的提高,称为神经缩放定律。
-
计算最优缩放定律是将性能作为计算单元函数来选择模型大小。
-
神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学。
-
在训练后期,神经网络的收敛速度表现为 $ extit {width}^{-c}$,其中 $c$ 取决于架构和任务的结构。
-
数据的重复重用可能导致训练和测试损失之间的差距逐渐增大。
➡️