小红花·文摘

CUDA PTX的ldmatrix指令用于从共享内存加载矩阵到寄存器，支持多种矩阵布局。CuTe封装了该指令，简化了使用过程，用户可通过不同参数灵活加载转置或非转置矩阵，以满足MMA操作需求。

Lei Mao's Log Book ·

本文介绍了如何使用CUDA驱动API动态加载PTX、CUBIN和FATBIN文件，并通过示例代码展示CUDA内核的编译与运行过程，强调了`extern "C"`的重要性，并提供了相关的Python脚本。

Lei Mao's Log Book ·

DEV Community ·

DeepSeek-V3论文引发关注，因其绕过CUDA，利用PTX语言提升硬件效率达10倍。分析指出其重建架构挑战英伟达技术壁垒，尽管PTX复杂，DeepSeek仍与AMD等合作，展示优化能力，可能推动AI自我改进。

量子位 ·

杰哥的小笔记 ·

NVIDIA CUDA的NVCC编译过程之前已经介绍过了，编译ptx后，会生成cubin文件。 cubin文件是包含了CUDA执行代码节的ELF格式文件。类似于我们常见运行文件。而官方提供了两个工具来反编译cubin文件到sass文件（类似常见的汇编），官方使用文档。 nvdisasm n

FindHao ·