量子位 ·

DeepSeek开源第三弹：V3/R1训练推理关键秘籍，核心代码仅300行

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

DeepSeek开源了DeepGEMM库，专注于高效FP8矩阵乘法，核心代码仅300行。在Hopper架构GPU上可达1350+TFLOPS性能，支持即时编译，简化使用，适用于深度学习的大规模模型训练，受到广泛关注。

🎯

🔎

DeepGEMM库专为深度学习中的矩阵运算而设计，特别适合大规模模型训练和推理。其高效的FP8矩阵乘法能力使其在需要快速计算的场景中表现出色，尤其是在处理密集和混合专家模型时，能够显著提升计算效率。

DeepGEMM在Hopper架构的GPU上可实现高达1358 TFLOPS的性能，且设计轻量级，无复杂依赖关系，便于部署和使用。然而，用户需确保其系统支持Hopper架构及相关软件版本，这可能限制其适用范围。

DeepGEMM采用即时编译（JIT）技术，能够在运行时动态生成优化代码，适应不同硬件和矩阵大小。这一特性不仅提升了性能，还简化了使用流程，使得开发者可以更灵活地进行模型训练和推理。

❓

DeepGEMM库专注于高效的FP8矩阵乘法，支持密集和混合专家矩阵乘法运算。

在Hopper架构GPU上，DeepGEMM的性能可达1350+ TFLOPS，内存带宽最高可达2668 GB/s。

使用DeepGEMM需要支持Hopper架构的GPU、Python 3.8及以上、CUDA 12.3及以上等依赖项。

DeepGEMM的核心代码仅约300行。

DeepGEMM采用CUDA核心的两级累积方法来解决FP8精度问题。

DeepGEMM支持密集矩阵布局和两种MoE布局，适应不同的应用场景。

🏷️