小红花·文摘

本文探讨了NVIDIA的CUDA生态系统，包括编译链、高层工具、分层结构、数学库（如cuBLAS和cuDNN）、通信库（如NCCL）及Triton DSL。文章比较了AMD ROCm和华为CANN的定位，分析了CUDA在大模型训练中的重要性和优势，并强调了性能调优工具Nsight的使用，以及FP8训练的潜在问题和解决方案。

【大模型基础设施工程】03：CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS

土法炼钢兴趣小组的博客 ·

cuBLAS GEMM API对输入输出矩阵的存储格式有严格要求。若矩阵为列主序格式，可直接使用；若为行主序格式，设置参数时易出错。本文讨论了矩阵转置与列主序存储的关系，以及在不同情况下如何使用cuBLAS GEMM API。

cuBLAS GEMM API在列主序和行主序矩阵中的使用

Lei Mao's Log Book ·