小红花·文摘

本文探讨了NVIDIA的CUDA生态系统，包括编译链、高层工具、分层结构、数学库（如cuBLAS和cuDNN）、通信库（如NCCL）及Triton DSL。文章比较了AMD ROCm和华为CANN的定位，分析了CUDA在大模型训练中的重要性和优势，并强调了性能调优工具Nsight的使用，以及FP8训练的潜在问题和解决方案。

【大模型基础设施工程】03：CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS

土法炼钢兴趣小组的博客 ·

NVIDIA H100的CUDA编程

freeCodeCamp.org ·

随着PD分离系统的推广，kvcache传输影响了用户体验。通过采用nccl和改进发送行为，传输性能显著提升，提升幅度达到42.90%。

PD 分离中的 kvcache 传输优化

学习让我快乐 ·

【小记】分布式训练中进程崩溃 SIGSEGV

Anjhon’s Blog ·

在PD分离中，Prefill实例通过RDMA Write和GDR将数据写入Decode实例，使用阿里云的Barex库实现异步批量写入以确保数据完整性。讨论了GDR的细节及NCCL实现，强调内存顺序和ACK机制的重要性，并提出通过RDMA read确认数据写入完成的解决方案。

GDR: 再深一点

学习让我快乐 ·

在压测中发现阻塞问题，调试工具分析后确认是workFifo满导致。通过分析nccl模块结构和任务分配，建议升级到最新版本以修复bug。

NCCL AllReduce CudaGraph 时 hang 问题分析

学习让我快乐 ·

本文介绍了 NCCL 源码中 Primitives<ProtoSimple> 的实现细节，包括内存分配、连接过程及基本通信原语的构造。通过构造 Primitives 对象，分配线程角色以实现数据传输，并详细解析了 waitPeer、reduceCopy 等函数和字段，展示了数据在通信中的流动与处理过程。

NCCL 源码解读(17): Primitives Simple

学习让我快乐 ·

本文介绍了如何制作和推送nccl-test镜像，并使用Volcano Job运行nccl-test进行测试。同时还提供了清理环境和解决常见问题的方法。

使用 Volcano 运行 nccl-test

陈少文的博客 ·

Llama 3.1，一个大规模的AI训练模型，在预训练期间频繁出现故障，其中58.7%的问题与GPU有关。团队使用了PyTorch的NCCL飞行记录器等工具来诊断和解决问题。环境因素，如温度波动，也影响了训练性能。随着Meta计划扩展Llama模型，维护一个大型AI集群将是一个挑战。构建和管理这样的集群是复杂的。

Llama3.1训练平均3小时故障一次，H100万卡集群好脆弱，气温波动都会影响吞吐量

量子位 ·

本文记录了常见IB网络不通问题的解决方法，从高层往底层逐步分析。包括NCCL不通、ib_write_bw不通、ibv_rc_pingpong不通、rping不通和ping不通的报错及解决方法。提供了详细的错误信息和相应的解决方案。

6个常见的IB网络不通问题

华为云官方博客 ·