💡
原文中文,约3000字,阅读约需7分钟。
📝
内容提要
DeepGEMM 是一款开源的 FP8 GEMM 库,支持密集型和专家混合计算,在 Hopper GPU 上可实现超过 1350 TFLOPS 的性能。该库代码简洁,仅有 300 行,适合学习 FP8 矩阵乘法。DeepSeek 计划在 5 月前发布新一代 R2 模型,以提升代码生成能力。
🎯
关键要点
- DeepGEMM 是一款开源的 FP8 GEMM 库,支持密集型和专家混合计算。
- 在 Hopper GPU 上,DeepGEMM 可实现超过 1350 TFLOPS 的性能。
- 该库代码简洁,仅有 300 行,适合学习 FP8 矩阵乘法。
- DeepGEMM 采用了细粒度 scaling 技术,支持普通 GEMM 和专家混合分组 GEMM。
- 该库使用 CUDA 编写,安装时无需编译,通过 JIT 模块在运行时编译内核。
- DeepGEMM 在各种矩阵形状上的性能与专家调优的库相当,甚至在某些情况下更优。
- 早期试用者对 DeepGEMM 的性能表示惊讶,认为其超越了专家调优的内核。
- DeepSeek 计划在 5 月前发布新一代 R2 模型,以提升代码生成能力。
- DeepSeek 的办公室靠近清华、北大,团队氛围良好,注重技术细节。
- DeepSeek 和幻方量化以薪酬丰厚而闻名,吸引了大量优秀人才。
- DeepSeek 的技术进步可能会引领 AI 行业的关键时刻。
➡️