Scaling Law不是唯一视角!清华刘知远团队提出大模型“密度定律”:模型能力密度100天翻番
💡
原文中文,约2900字,阅读约需7分钟。
📝
内容提要
清华大学刘知远团队提出了大模型的“密度定律”,指出模型能力每100天翻一倍,揭示了AI时代电力、算力与智力的快速增长。研究表明,模型推理成本显著降低,新模型不断涌现,推动了端侧智能的发展。
🎯
关键要点
- 清华大学刘知远团队提出大模型的密度定律,模型能力每100天翻一倍。
- 密度定律揭示了AI时代电力、算力与智力的快速增长趋势。
- 能力密度是衡量大模型性价比的新指标,定义为有效参数量与实际参数量的比值。
- 研究发现,模型推理成本显著降低,推理开销随时间指数级下降。
- 自ChatGPT发布以来,大模型能力密度加速增强,密度增强速度增加50%。
- 芯片电路密度与模型能力密度的交汇揭示了端侧智能的巨大潜力。
- 现有模型压缩技术未必能提高模型密度,后训练不充分可能导致能力密度下降。
- 模型高性价比的有效期不断缩短,盈利窗口短暂。
- AI时代的三大核心引擎——电力、算力与智力,密度都在快速增长。
- 随着模型能力密度的提升,AI技术的可持续发展将有无限可能,推动“AI无处不在”的愿景。
❓
延伸问答
什么是大模型的密度定律?
大模型的密度定律是指模型能力每100天翻一倍,揭示了AI时代电力、算力与智力的快速增长趋势。
能力密度如何定义?
能力密度定义为有效参数量与实际参数量的比值,用于衡量大模型的性价比。
模型推理成本的变化趋势是什么?
模型推理成本随时间指数级下降,例如GPT-3.5的推理成本在2022年为20美元,而Gemini-1.5-Flash在2024年降至0.075美元。
ChatGPT发布后,模型能力密度有什么变化?
自ChatGPT发布以来,大模型能力密度加速增强,密度增强速度增加了50%。
现有的模型压缩技术对能力密度有什么影响?
现有的模型压缩技术未必能提高模型密度,后训练不充分可能导致能力密度下降。
AI时代的三大核心引擎是什么?
AI时代的三大核心引擎是电力、算力与智力,它们都在快速增长。
➡️