揭开缩放法则之迷:第一部分
原文中文,约400字,阅读约需1分钟。发表于: 。本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效,但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素,并提供透明的逐步指导,通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式,我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力,包括 (1)...
本文研究了神经机器翻译中编码器-解码器Transformer模型的扩展特性,提出了交叉熵损失与编解码器大小的关系公式,并给出了最优化分配建议。同时发现训练/测试集组成偏差对模型扩展表现有重要影响,称之为“构造偏差”。研究还调查了交叉熵损失与翻译质量的关系,发现模型大小对推理质量有不同影响。