小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了NVIDIA的CUDA生态系统,包括编译链、高层工具、分层结构、数学库(如cuBLAS和cuDNN)、通信库(如NCCL)及Triton DSL。文章比较了AMD ROCm和华为CANN的定位,分析了CUDA在大模型训练中的重要性和优势,并强调了性能调优工具Nsight的使用,以及FP8训练的潜在问题和解决方案。

【大模型基础设施工程】03:CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
NVIDIA H100的CUDA编程

学习CUDA编程,掌握NVIDIA Hopper GPU的WGMMA管道和Cutlass优化,适用于大规模矩阵乘法和现代AI。课程包括多GPU扩展及训练万亿参数模型所需的NCCL原语,需具备C++和线性代数基础。

NVIDIA H100的CUDA编程

freeCodeCamp.org
freeCodeCamp.org · 2026-04-09T22:44:17Z

随着PD分离系统的推广,kvcache传输影响了用户体验。通过采用nccl和改进发送行为,传输性能显著提升,提升幅度达到42.90%。

PD 分离中的 kvcache 传输优化

学习让我快乐
学习让我快乐 · 2025-08-30T16:00:00Z
【小记】分布式训练中进程崩溃 SIGSEGV

在多卡训练中,进程因SIGSEGV(段错误)崩溃,导致训练失败。常见原因包括不可序列化对象、内存不足和NCCL通信问题。建议检查GPU显存、共享内存及CUDA与NCCL的兼容性。调整CUDA和NCCL版本,使用gloo模式可暂时解决问题,但效率较低,优先使用NCCL。

【小记】分布式训练中进程崩溃 SIGSEGV

Anjhon’s Blog
Anjhon’s Blog · 2025-06-16T16:00:00Z

在PD分离中,Prefill实例通过RDMA Write和GDR将数据写入Decode实例,使用阿里云的Barex库实现异步批量写入以确保数据完整性。讨论了GDR的细节及NCCL实现,强调内存顺序和ACK机制的重要性,并提出通过RDMA read确认数据写入完成的解决方案。

GDR: 再深一点

学习让我快乐
学习让我快乐 · 2025-05-06T16:00:00Z

在压测中发现阻塞问题,调试工具分析后确认是workFifo满导致。通过分析nccl模块结构和任务分配,建议升级到最新版本以修复bug。

NCCL AllReduce CudaGraph 时 hang 问题分析

学习让我快乐
学习让我快乐 · 2025-03-12T16:00:00Z

本文介绍了 NCCL 源码中 Primitives<ProtoSimple> 的实现细节,包括内存分配、连接过程及基本通信原语的构造。通过构造 Primitives 对象,分配线程角色以实现数据传输,并详细解析了 waitPeer、reduceCopy 等函数和字段,展示了数据在通信中的流动与处理过程。

NCCL 源码解读(17): Primitives Simple

学习让我快乐
学习让我快乐 · 2025-03-08T16:00:00Z

本文介绍了如何制作和推送nccl-test镜像,并使用Volcano Job运行nccl-test进行测试。同时还提供了清理环境和解决常见问题的方法。

使用 Volcano 运行 nccl-test

陈少文的博客
陈少文的博客 · 2024-08-11T00:00:00Z

Llama 3.1,一个大规模的AI训练模型,在预训练期间频繁出现故障,其中58.7%的问题与GPU有关。团队使用了PyTorch的NCCL飞行记录器等工具来诊断和解决问题。环境因素,如温度波动,也影响了训练性能。随着Meta计划扩展Llama模型,维护一个大型AI集群将是一个挑战。构建和管理这样的集群是复杂的。

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱,气温波动都会影响吞吐量

量子位
量子位 · 2024-07-29T06:56:05Z

本文记录了常见IB网络不通问题的解决方法,从高层往底层逐步分析。包括NCCL不通、ib_write_bw不通、ibv_rc_pingpong不通、rping不通和ping不通的报错及解决方法。提供了详细的错误信息和相应的解决方案。

6个常见的IB网络不通问题

华为云官方博客
华为云官方博客 · 2023-06-26T06:06:24Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码