时间的重要性:适用于任意预算的规模定律

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

研究发现,神经网络在训练时间、数据集大小和模型大小上有预测性的提高。在训练早期,神经网络以 $1/ extit {width}$ 的速度收敛到无限宽度动力学,但在后期表现为 $ extit {width}^{-c}$ 的速度。数据的重复重用可能导致训练和测试损失之间的差距逐渐增大。

🎯

关键要点

  • 神经网络在训练时间、数据集大小和模型大小上表现出预测性的提高,称为神经缩放定律。

  • 计算最优缩放定律是将性能作为计算单元函数来选择模型大小。

  • 神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学。

  • 在训练后期,神经网络的收敛速度表现为 $ extit {width}^{-c}$,其中 $c$ 取决于架构和任务的结构。

  • 数据的重复重用可能导致训练和测试损失之间的差距逐渐增大。

➡️

继续阅读