超越固定训练持续时间的尺度定律和计算优化训练
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
研究发现,神经网络在训练时间、数据集大小和模型大小上有预测性的提高。在训练早期,神经网络以 $1/ extit {width}$ 的速度收敛到无限宽度动力学,但在后期表现为 $ extit {width}^{-c}$ 的速度。数据的重复重用导致训练和测试损失之间的差距逐渐增大。
🎯
关键要点
- 神经网络在训练时间、数据集大小和模型大小上表现出预测性的提高,称为神经缩放定律。
- 计算最优缩放定律通过性能作为计算单元函数来选择模型大小。
- 神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学。
- 在训练后期,神经网络的收敛速度表现为 $ extit {width}^{-c}$,其中 $c$ 依赖于架构和任务结构。
- 数据的重复重用导致训练和测试损失之间的差距逐渐增大。
➡️