超越 Chinchilla-Optimal:考虑推理在语言模型扩展规律中的影响
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
基于大型语言模型的扩展规律需要考虑推理成本。研究人员发现,具有大量推理需求的LLM应该训练比Chinchilla-optimal更小且更长的模型。
🎯
关键要点
- 基于大型语言模型(LLM)的扩展规律需要考虑推理成本。
- 现有的扩展规律,如DeepMind Chinchilla,忽略了推理成本。
- 研究者修改了Chinchilla扩展规律,以计算最佳LLM参数数量和预训练数据大小。
- 分析从计算预算和真实成本的角度进行。
- 预计具有较大推理需求的LLM应训练比Chinchilla-optimal更小且更长的模型。
➡️