LLaMA 3 又来掀桌子了

LLaMA 3 又来掀桌子了

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

根据Chinchilla法则,一般模型大小乘以20是最优训练数据量。然而,从实验数据可以看出,固定模型大小持续增加训练数据或固定训练数据量持续放大模型参数规模也能提升模型性能。这两种方法被称为“Sub-optimal Chinchilla Law”。

🎯

关键要点

  • Chinchilla法则指出,模型大小乘以20是最优训练数据量。
  • 对于8B模型,160B训练数据对应最优Scaling law。
  • 不能机械地理解和应用Scaling law。
  • 固定模型大小持续增加训练数据可以提升模型性能。
  • 只要有新数据,小模型效果会持续变好。
  • 固定训练数据量持续放大模型参数规模也能提升模型性能。
  • 同时增加训练数据和模型容量的做法称为“Optimal Chinchilla Law”。
  • 固定模型大小或固定训练数据量的做法被称为“Sub-optimal Chinchilla Law”。
🏷️

标签

➡️

继续阅读