“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

DeepSeek-V3论文引发关注,因其绕过CUDA,利用PTX语言提升硬件效率达10倍。分析指出其重建架构挑战英伟达技术壁垒,尽管PTX复杂,DeepSeek仍与AMD等合作,展示优化能力,可能推动AI自我改进。

🎯

关键要点

  • DeepSeek-V3论文引发关注,因其绕过CUDA,利用PTX语言提升硬件效率达10倍。
  • 分析指出DeepSeek-V3重建架构挑战英伟达技术壁垒。
  • DeepSeek-V3在使用英伟达H800 GPU时,修改了20个流式多处理器以优化通信速度。
  • PTX语言允许细粒度优化,但编写复杂且难以维护。
  • DeepSeek与AMD等公司合作,展示了其优化能力。
  • 有观点认为AI自我改进的方向是让AI擅长编写汇编语言。
  • DeepSeek-R1编写的代码显著提升了大模型推理框架的运行速度。
➡️

继续阅读