Scaling Law不是唯一视角!清华刘知远团队提出大模型“密度定律”:模型能力密度100天翻番

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

清华大学刘知远团队提出了大模型的“密度定律”,指出模型能力每100天翻一倍,揭示了AI时代电力、算力与智力的快速增长。研究表明,模型推理成本显著降低,新模型不断涌现,推动了端侧智能的发展。

🎯

关键要点

  • 清华大学刘知远团队提出大模型的密度定律,模型能力每100天翻一倍。
  • 密度定律揭示了AI时代电力、算力与智力的快速增长趋势。
  • 能力密度是衡量大模型性价比的新指标,定义为有效参数量与实际参数量的比值。
  • 研究发现,模型推理成本显著降低,推理开销随时间指数级下降。
  • 自ChatGPT发布以来,大模型能力密度加速增强,密度增强速度增加50%。
  • 芯片电路密度与模型能力密度的交汇揭示了端侧智能的巨大潜力。
  • 现有模型压缩技术未必能提高模型密度,后训练不充分可能导致能力密度下降。
  • 模型高性价比的有效期不断缩短,盈利窗口短暂。
  • AI时代的三大核心引擎——电力、算力与智力,密度都在快速增长。
  • 随着模型能力密度的提升,AI技术的可持续发展将有无限可能,推动“AI无处不在”的愿景。

延伸问答

什么是大模型的密度定律?

大模型的密度定律是指模型能力每100天翻一倍,揭示了AI时代电力、算力与智力的快速增长趋势。

能力密度如何定义?

能力密度定义为有效参数量与实际参数量的比值,用于衡量大模型的性价比。

模型推理成本的变化趋势是什么?

模型推理成本随时间指数级下降,例如GPT-3.5的推理成本在2022年为20美元,而Gemini-1.5-Flash在2024年降至0.075美元。

ChatGPT发布后,模型能力密度有什么变化?

自ChatGPT发布以来,大模型能力密度加速增强,密度增强速度增加了50%。

现有的模型压缩技术对能力密度有什么影响?

现有的模型压缩技术未必能提高模型密度,后训练不充分可能导致能力密度下降。

AI时代的三大核心引擎是什么?

AI时代的三大核心引擎是电力、算力与智力,它们都在快速增长。

➡️

继续阅读