土法炼钢兴趣小组的博客 ·

【大模型基础设施工程】03：CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS

💡 原文中文，约29300字，阅读约需70分钟。

📝

内容提要

本文探讨了NVIDIA的CUDA生态系统，包括编译链、高层工具、分层结构、数学库（如cuBLAS和cuDNN）、通信库（如NCCL）及Triton DSL。文章比较了AMD ROCm和华为CANN的定位，分析了CUDA在大模型训练中的重要性和优势，并强调了性能调优工具Nsight的使用，以及FP8训练的潜在问题和解决方案。

🎯

关键要点

大模型训练中，工程师通常不直接编写CUDA kernel，而是使用高层工具如PyTorch。
CUDA生态系统分为七层，包括编译链、运行时API、数学库、通信库、高层DSL和工具链。
cuBLAS和cuDNN是大模型计算的核心数学库，选择合适的库对性能至关重要。
NCCL是NVIDIA的集合通信库，提供高效的多GPU通信能力。
Triton是NVIDIA推出的Python DSL，旨在简化CUDA编程，适用于LLM时代的算子开发。
Nsight工具链用于性能分析，帮助工程师定位性能瓶颈。
FP8训练在性能和精度上具有优势，但也面临激活溢出和梯度下溢等问题。
AMD ROCm和华为CANN在生态系统和性能上与CUDA存在差距，短期内CUDA仍是主流选择。

❓

延伸问答

CUDA生态系统的主要组成部分有哪些？

CUDA生态系统主要由编译链、运行时API、数学库、通信库、高层DSL和工具链组成。

cuBLAS和cuDNN在大模型训练中有什么重要性？

cuBLAS和cuDNN是大模型计算的核心数学库，选择合适的库对性能至关重要。

Nsight工具链的主要功能是什么？

Nsight工具链用于性能分析，帮助工程师定位性能瓶颈。

FP8训练的优势和潜在问题是什么？

FP8训练在性能和精度上具有优势，但面临激活溢出和梯度下溢等问题。

NCCL在多GPU通信中起什么作用？

NCCL是NVIDIA的集合通信库，提供高效的多GPU通信能力。

Triton的主要功能是什么？

Triton是NVIDIA推出的Python DSL，旨在简化CUDA编程，适用于LLM时代的算子开发。

🏷️

继续阅读

存之有序，治之有矩——Agent 记忆系统的工程实践与演进
本文探讨了Agent记忆系统的工程实践与演进，分析了记忆写入纪律、Prompt Cache冲突、跨模型容量、Embedding迁移及Agent自产Skil...
基于 Amazon ECS Fargate 和 Graviton 构建企业级多租户 AI Agent 平台：OpenClaw + Hermes 双 Agent 实践
AI Agent 从实验走向生产，企业需要让不同团队各跑独立实例且互不可见。本文介绍基于 Amazon ECS Fargate + Graviton 的轻...
第28期大数据师资培训班报名主页（Hadoop+Spark+实战案例班，暑假，泉州，2026年8月6日-13日）
第28期大数据师资培训班报名主页（Hadoop+Spark+实战案例班，暑假，泉州，2026年8月6日-13日 […]
Article Series: Securing the AI Stack: From Model to Production
This series provides your roadmap for the machine age, exploring how to move ...
Google LiteRT-LM Speeds Up Local Inference Up to 2.2x With Gemma 4 Multi-Token Prediction
LiteRT-LM brings native support for Gemma 4 Multi-Token Prediction (MTP) draf...
回归晨跑
作者分享了重拾晨跑的经历，探讨生物钟与运动的关系。尽管初期脚踝疼痛，晨跑改善了睡眠质量和生活节奏，恢复了阅读兴趣和工作动力。通过调整作息和锻炼，作者意识到...