小红花·文摘

大规模深度学习模型的实证研究发现，随着模型大小和数据规模的增加，训练模型的测试误差呈多项式改进。本研究在无限维线性回归设置下研究了缩放规律的理论，证明了测试误差的可还原部分为Θ(M^{-(a-1)} + N^{-(a-1)/a})。方差错误随M的增加而增加，但由于随机梯度下降的隐式正则化作用，被其他误差所主导从而在界限中消失。

统一的神经网络缩放法则与规模时间等价性

BriefGPT - AI 论文速递 ·

大规模深度学习模型的实证研究发现，随着模型大小和数据规模增加，训练模型的测试误差呈多项式改进。研究还发现，增加模型大小会单调改善性能，与传统认知不同。研究在无限维线性回归设置下研究了缩放规律的理论，并通过数值模拟验证了该理论。

线性回归中的缩放定律：计算、参数和数据

BriefGPT - AI 论文速递 ·