超越 Chinchilla-Optimal:考虑推理在语言模型扩展规律中的影响

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

基于大型语言模型的扩展规律需要考虑推理成本。研究人员发现,具有大量推理需求的LLM应该训练比Chinchilla-optimal更小且更长的模型。

🎯

关键要点

  • 基于大型语言模型(LLM)的扩展规律需要考虑推理成本。
  • 现有的扩展规律,如DeepMind Chinchilla,忽略了推理成本。
  • 研究者修改了Chinchilla扩展规律,以计算最佳LLM参数数量和预训练数据大小。
  • 分析从计算预算和真实成本的角度进行。
  • 预计具有较大推理需求的LLM应训练比Chinchilla-optimal更小且更长的模型。
➡️

继续阅读