Databricks ·

语言模型应该训练多长时间？

💡 原文英文，约2100词，阅读约需8分钟。

📝

内容提要

这篇文章介绍了修改后的缩放定律，考虑了训练和推理成本。研究人员发现，通过在更多数据上训练较小但同样强大的模型，可以弥补额外的训练成本。模型质量随着参数标记数量的增加而提高。文章还讨论了如何估计实际成本，并提出了适用于实际部署的目标函数。作者建议在推理需求较高的情况下，可以训练更长时间的模型，以提高质量。

🎯

关键要点

研究提出了修改后的缩放定律，考虑了训练和推理成本。
通过在更多数据上训练较小但同样强大的模型，可以弥补额外的训练成本。
模型质量随着参数标记数量的增加而提高。
在推理需求较高的情况下，建议训练更长时间的模型以提高质量。
Chinchilla缩放定律是最广泛引用的缩放定律，强调模型大小与训练时长的平衡。
较大的模型在部署时成本更高，因此模型大小是训练和推理时间的重要成本因素。
调整后的缩放定律提供了基于期望质量和推理需求的最有效训练和部署模型的方法。
实验表明，模型质量随着标记与参数的比例增加而提高，甚至在极端范围内。
在高需求推理场景中，建议训练较小的模型并使用更多数据。
研究还考虑了训练和推理的实际成本，提出了更适合实际部署的目标函数。
研究结果表明，较小的模型在足够的数据上训练可以匹配较大的模型的质量。
该研究激发了DBRX模型的开发，该模型具有132B参数，训练了12万亿个标记。

❓

延伸问答

修改后的缩放定律是如何考虑训练和推理成本的？

修改后的缩放定律同时考虑了训练和推理的成本，提供了在期望质量和推理需求下最有效的训练和部署模型的方法。

在推理需求高的情况下，模型训练时间应该如何调整？

在推理需求高的情况下，建议训练更长时间的模型，以提高模型质量。

较小模型在大量数据上训练的优势是什么？

较小模型在足够的数据上训练可以匹配较大模型的质量，从而降低部署成本。

Chinchilla缩放定律的核心观点是什么？

Chinchilla缩放定律强调在固定的训练计算预算下，模型大小与训练时长之间的平衡，以实现最高质量的模型。

如何估计训练和推理的实际成本？

通过将训练、预处理和解码的成本分开估算，可以更准确地反映实际部署中的成本。

研究中提到的DBRX模型有什么特点？

DBRX模型具有132B参数，训练了12万亿个标记，旨在提高模型的质量和性能。

🏷️

继续阅读

使用Scikit-LLM与开源语言模型
本文介绍如何使用Ollama本地托管的开源语言模型（如Llama 3、Mistral和Gemma）进行文本分类，避免支付API费用。内容包括Ollama的...
刚刚，姚顺雨现身！公开回应腾讯AI落后了吗？
在腾讯云AI产业应用大会上，姚顺雨与汤道生讨论了AI的未来发展。姚顺雨指出，AI的“下半场”应聚焦于解决实际问题和寻找合适的应用场景。他认为腾讯的丰富产品...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
粉笔科技的人大讲座事件的说明与致歉
粉笔网CEO张小龙在人民大学的讲座中因言辞不当引发争议。他提到AI对就业的影响，认为体制内工作机会减少，并建议学生利用AI工具提升竞争力。因现场反应冷淡，...
性和浪漫爱情可以都是崇高的
文章探讨了性与浪漫爱情的二元对立，指出这种观念导致性压抑和内心冲突，尤其是女性在享受性愉悦时常感到恐惧和焦虑。尽管性与浪漫爱情在生理上并无高低之分，但文化...