小红花·文摘

本文研究了语言模型的交叉熵损失与模型规模、数据集大小及计算量之间的关系，提出了优化编码器和解码器容量分配的建议，并探讨了训练数据选择对模型性能的影响。研究表明，模型扩展显著影响翻译质量，并提出了时间缩放定律，揭示了预训练语言模型的学习特性。

学习率退火的缩放法则

BriefGPT - AI 论文速递 ·

利用转移学习提升模型性能

KDnuggets ·

神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高，这一现象被称为神经缩放定律。研究表明，神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学，但在后期表现为 $ extit {width}^{-c}$ 的速度，其中 $c$ 取决于架构和任务的结构。此外，理论上显示了由于数据的重复重用，训练和测试损失之间的差距可以随时间逐渐增大。

重新思考战略环境下的学习尺度定律

BriefGPT - AI 论文速递 ·