DeepSeek开源通用矩阵乘法库,300行代码加速V3、R1,R2被曝五月前问世

DeepSeek开源通用矩阵乘法库,300行代码加速V3、R1,R2被曝五月前问世

💡 原文中文,约3000字,阅读约需7分钟。
📝

内容提要

DeepGEMM 是一款开源的 FP8 GEMM 库,支持密集型和专家混合计算,在 Hopper GPU 上可实现超过 1350 TFLOPS 的性能。该库代码简洁,仅有 300 行,适合学习 FP8 矩阵乘法。DeepSeek 计划在 5 月前发布新一代 R2 模型,以提升代码生成能力。

🎯

关键要点

  • DeepGEMM 是一款开源的 FP8 GEMM 库,支持密集型和专家混合计算。
  • 在 Hopper GPU 上,DeepGEMM 可实现超过 1350 TFLOPS 的性能。
  • 该库代码简洁,仅有 300 行,适合学习 FP8 矩阵乘法。
  • DeepGEMM 采用了细粒度 scaling 技术,支持普通 GEMM 和专家混合分组 GEMM。
  • 该库使用 CUDA 编写,安装时无需编译,通过 JIT 模块在运行时编译内核。
  • DeepGEMM 在各种矩阵形状上的性能与专家调优的库相当,甚至在某些情况下更优。
  • 早期试用者对 DeepGEMM 的性能表示惊讶,认为其超越了专家调优的内核。
  • DeepSeek 计划在 5 月前发布新一代 R2 模型,以提升代码生成能力。
  • DeepSeek 的办公室靠近清华、北大,团队氛围良好,注重技术细节。
  • DeepSeek 和幻方量化以薪酬丰厚而闻名,吸引了大量优秀人才。
  • DeepSeek 的技术进步可能会引领 AI 行业的关键时刻。

延伸问答

DeepGEMM是什么?

DeepGEMM是一款开源的FP8 GEMM库,支持密集型和专家混合计算,旨在实现高效的矩阵乘法。

DeepGEMM在Hopper GPU上的性能如何?

在Hopper GPU上,DeepGEMM可实现超过1350 TFLOPS的计算性能。

DeepGEMM的代码量是多少?

DeepGEMM的代码量仅为300行。

DeepSeek计划在何时发布新一代R2模型?

DeepSeek计划在5月之前发布新一代R2模型。

DeepGEMM的安装过程是怎样的?

安装DeepGEMM需要配置Hopper架构的GPU、Python、CUDA和PyTorch等环境,然后通过命令行进行安装。

DeepGEMM与专家调优库的性能比较如何?

DeepGEMM在各种矩阵形状上的性能与专家调优的库相当,甚至在某些情况下更优。

➡️

继续阅读