全面解析CUDA编程与应用：从NVIDIA H100到国产解决方案 - 小红花·文摘 - 小红花技术领袖俱乐部

DeepSeek发布Tile Kernels：用TileLang榨干GPU并打破CUDA垄断

DeepSeek发布Tile Kernels：用TileLang榨干GPU并打破CUDA垄断

极道 ·

本文探讨了NVIDIA的CUDA生态系统，包括编译链、高层工具、分层结构、数学库（如cuBLAS和cuDNN）、通信库（如NCCL）及Triton DSL。文章比较了AMD ROCm和华为CANN的定位，分析了CUDA在大模型训练中的重要性和优势，并强调了性能调优工具Nsight的使用，以及FP8训练的潜在问题和解决方案。

【大模型基础设施工程】03：CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS

土法炼钢兴趣小组的博客 ·

黄仁勋都被问毛了：顶级AI厂商在去CUDA？“你的前提就是错的”

量子位 ·

在GPU编程中，页锁定主机内存可加速CPU与GPU之间的数据传输。文章探讨了页表的概念及其在多个进程共享页锁定内存时的GPU内存开销。每个进程都有独立的页表，可能导致内存浪费。为减少开销，建议使用CUDA进程间通信（IPC），通过主进程管理页锁定内存，避免重复的GPU页表，从而提高效率。

页锁定主机内存的页表

Lei Mao's Log Book ·

NVIDIA H100的CUDA编程

NVIDIA H100的CUDA编程

freeCodeCamp.org ·

开源模型首超Opus4.6！智谱GLM-5.1登场，14小时后CUDA专家被冲了

量子位 ·

【Rust日报】2026-04-07 Khal：一次编写，可在 WebGPU、Cuda、CPU 上运行的抽象层

【Rust日报】2026-04-07 Khal：一次编写，可在 WebGPU、Cuda、CPU 上运行的抽象层

Rust.cc ·

速度与安全

速度与安全

The C++ Alliance ·

零侵入、极简适配！飞桨CINN实现类CUDA硬件“即插即用”

零侵入、极简适配！飞桨CINN实现类CUDA硬件“即插即用”

百度大脑 ·

黄仁勋回应一切：木匠、水管工看到 Al 应该最兴奋

黄仁勋回应一切：木匠、水管工看到 Al 应该最兴奋

爱范儿 ·

在CUDA程序调试中，设置CUDA_LAUNCH_BLOCKING=1比在每个内核后使用cudaDeviceSynchronize()更有效。前者确保内核执行不重叠，有助于准确定位复杂错误，如竞争条件，而后者可能无法精确定位问题。

CUDA_LAUNCH_BLOCKING=1

Lei Mao's Log Book ·

Modular 26.2：先进的图像生成与Mojo优化的AI编程

Modular 26.2：先进的图像生成与Mojo优化的AI编程

Modular Blog ·

从盘古套壳到阿里真武 AI芯片大浪淘沙

从盘古套壳到阿里真武 AI芯片大浪淘沙

dotNET跨平台 ·

本文比较了向量化和标量访问共享内存的性能，结果表明两者性能相当，且向量化访问不会引发共享内存银行冲突。通过合理设计访问模式，向量化访问能够有效减少指令数量，从而提升性能。

CUDA共享内存无银行冲突的向量化访问

Lei Mao's Log Book ·

告别N卡CUDA垄断，Windows+AMD显卡ROCm跑深度学习：手把手实现 MNIST 手写数字识别 - 曦远Code

告别N卡CUDA垄断，Windows+AMD显卡ROCm跑深度学习：手把手实现 MNIST 手写数字识别 - 曦远Code

程序设计实验室 ·

KernelCAT是一种国产AI算力方案，旨在解决算子开发难题。通过运筹优化技术，它提高了算子调优效率，增强了国产芯片性能，缩短了开发周期，促进了AI模型在本土平台的应用。

天下苦CUDA久矣，又一国产方案上桌了

量子位 ·

在CUDA编程中，管理多个流的依赖关系具有挑战性。使用汇合流可以简化多个生产者和消费者流的调度，确保消费者在所有生产者完成后再开始处理，从而提升代码的可维护性和性能。

CUDA 汇合流

Lei Mao's Log Book ·

本文介绍了如何将CUDA与Go语言结合，以实现高性能计算。通过Sam Burns的演讲，展示了GPU在并行计算中的优势，特别是在矩阵乘法示例中，强调了Go语言处理大规模数据的潜力。

当 Go 遇上 GPU：用 CUDA 释放千倍算力的实战指南

Tony Bai ·

模块化：如何在没有GPU经验的情况下，使用Mojo击败Unsloth的CUDA内核

模块化：如何在没有GPU经验的情况下，使用Mojo击败Unsloth的CUDA内核

Modular Blog ·

CUDA图是提升GPU性能的有效工具，PyTorch提供了torch.cuda.graph和torch.cuda.make_graphed_callables两个API来捕获和重放CUDA图。前者需要手动管理，后者简化了流程，适用于不同场景以提升PyTorch模型性能。

PyTorch CUDA图捕获

Lei Mao's Log Book ·