爱范儿 ·

一文看懂 DeepSeek 开源项目第三弹，300 行代码揭示 V3/R1 推理效率背后的关键

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

DeepGEMM 是一个针对 FP8 通用矩阵乘法优化的库，支持普通和混合专家（MoE）分组 GEMM。它采用即时编译（JIT），无需预编译，能够根据设备动态调整代码，提高计算效率。DeepGEMM 设计简洁，核心代码约 300 行，特别适合现代 AI 计算，尤其在高效推理和低功耗场景中表现突出。

🎯

🔎

FP8 作为一种压缩数字的方法，能够显著减少内存占用并提高计算速度，但也带来了精度问题。DeepGEMM 通过两级累积技术有效解决了这一挑战，确保了计算结果的准确性。这种设计在高效推理和低功耗场景中尤为重要，适合现代 AI 应用。

DeepGEMM 采用即时编译（JIT）技术，能够根据设备动态生成最优代码。这种灵活性使得程序在运行时能够适应不同的硬件环境，提升了计算效率。对于开发者而言，这意味着可以更快速地部署和优化模型，减少了预编译的负担。

DeepGEMM 目前仅支持 NVIDIA Hopper 张量核心，并对环境有特定要求，包括 Python 和 CUDA 版本。这限制了其在其他硬件上的应用，开发者在使用前需确保满足这些条件，以获得最佳性能。

❓

DeepGEMM 是一个针对 FP8 通用矩阵乘法优化的库，支持普通和混合专家（MoE）分组 GEMM。

DeepGEMM 采用即时编译（JIT）技术，根据设备动态调整代码，从而提高计算效率。

FP8 是一种压缩数字的方法，能够减少内存占用，提高计算速度，但可能导致精度问题。

DeepGEMM 的核心代码约 300 行，设计简洁，便于学习和优化。

DeepGEMM 需要 NVIDIA Hopper 架构 GPU、Python 3.8 及以上版本、CUDA 12.3 及以上版本等环境要求。

DeepGEMM 采用两级累积技术，通过高精度汇总来解决 FP8 精度问题，确保计算结果的准确性。

🏷️