清华翟季冬:DeepSeek 百倍算力效能背后的系统革命 | 智者访谈

清华翟季冬:DeepSeek 百倍算力效能背后的系统革命 | 智者访谈

💡 原文中文,约8700字,阅读约需21分钟。
📝

内容提要

DeepSeek团队在两个月内利用2048张H800 GPU训练出与顶尖模型相媲美的成果,挑战了传统算力规模观念。翟季冬教授强调,系统软件创新是提升算力效能的关键,需在有限资源下优化算法和软件。目前国内算力资源闲置,亟需探索从应用到芯片的完整链路,以推动AI产业发展。

🎯

关键要点

  • DeepSeek团队用2048张H800 GPU在两个月内训练出媲美顶尖模型的成果,挑战传统算力规模观念。
  • 翟季冬教授强调系统软件创新是提升算力效能的关键,需要在有限资源下优化算法和软件。
  • 国内算力资源闲置,亟需探索从应用到芯片的完整链路,以推动AI产业发展。
  • AI发展将更注重资源的高效利用,而非单纯追求算力规模。
  • DeepSeek通过系统软件的深度创新实现了百倍性价比提升。
  • 性能优化是一个无止境的过程,需要在多个技术层面发力,建立完整的基础软件体系。
  • 国内智算中心的算力资源闲置,暴露出基础软件体系的短板。
  • 打通从应用到系统软件,再到自主芯片的完整链路是中国发展的重要机遇。
  • 算力主导AI竞争力,如何最大化每一份计算资源的价值至关重要。
  • DeepSeek的成功展示了在有限算力情况下,通过算法和软件的协同创新可以挖掘硬件的极致性能。
  • 中美硬件差异使得中国在系统软件方面需要不同的思考方向,需提升芯片易用性。
  • 针对不同架构特点,中国需要在软件栈方面进行创新,打通应用侧到系统软件的路径。
  • Transformer专用芯片尚未推出,主要因市场空间和技术演变的不确定性。
  • 系统软件需密切关注上下层变化,合理设计以匹配硬件效率。
  • 万卡集群训练面临并行策略选择、通信问题和容错机制等技术挑战。
  • 提升算力利用率需关注不同阶段的负载特点,优化策略应从整体pipeline角度考虑。
  • 未来1-3年,国产算力需达到与NVIDIA相同的易用性,以促进AI在各行业的发展。
➡️

继续阅读