💡
原文英文,约2100词,阅读约需8分钟。
📝
内容提要
这篇文章介绍了修改后的缩放定律,考虑了训练和推理成本。研究人员发现,通过在更多数据上训练较小但同样强大的模型,可以弥补额外的训练成本。模型质量随着参数标记数量的增加而提高。文章还讨论了如何估计实际成本,并提出了适用于实际部署的目标函数。作者建议在推理需求较高的情况下,可以训练更长时间的模型,以提高质量。
🎯
关键要点
- 研究提出了修改后的缩放定律,考虑了训练和推理成本。
- 通过在更多数据上训练较小但同样强大的模型,可以弥补额外的训练成本。
- 模型质量随着参数标记数量的增加而提高。
- 在推理需求较高的情况下,建议训练更长时间的模型以提高质量。
- Chinchilla缩放定律是最广泛引用的缩放定律,强调模型大小与训练时长的平衡。
- 较大的模型在部署时成本更高,因此模型大小是训练和推理时间的重要成本因素。
- 调整后的缩放定律提供了基于期望质量和推理需求的最有效训练和部署模型的方法。
- 实验表明,模型质量随着标记与参数的比例增加而提高,甚至在极端范围内。
- 在高需求推理场景中,建议训练较小的模型并使用更多数据。
- 研究还考虑了训练和推理的实际成本,提出了更适合实际部署的目标函数。
- 研究结果表明,较小的模型在足够的数据上训练可以匹配较大的模型的质量。
- 该研究激发了DBRX模型的开发,该模型具有132B参数,训练了12万亿个标记。
➡️