语言模型应该训练多长时间?
原文英文,约2100词,阅读约需8分钟。发表于: 。How long should you train your language model? How large should your model be? In today's generative AI landscape, these are multi-million dollar...
这篇文章介绍了修改后的缩放定律,考虑了训练和推理成本。研究人员发现,通过在更多数据上训练较小但同样强大的模型,可以弥补额外的训练成本。模型质量随着参数标记数量的增加而提高。文章还讨论了如何估计实际成本,并提出了适用于实际部署的目标函数。作者建议在推理需求较高的情况下,可以训练更长时间的模型,以提高质量。