小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

CUDA PTX的ldmatrix指令用于从共享内存加载矩阵到寄存器,支持多种矩阵布局。CuTe封装了该指令,简化了使用过程,用户可通过不同参数灵活加载转置或非转置矩阵,以满足MMA操作需求。

CuTe ldmatrix指令

Lei Mao's Log Book
Lei Mao's Log Book · 2025-10-03T07:00:00Z

本文介绍了如何使用CUDA驱动API动态加载PTX、CUBIN和FATBIN文件,并通过示例代码展示CUDA内核的编译与运行过程,强调了`extern "C"`的重要性,并提供了相关的Python脚本。

使用CUDA驱动API在运行时加载CUDA内核

Lei Mao's Log Book
Lei Mao's Log Book · 2025-06-30T07:00:00Z
DeepSeek - 回顾

DeepSeek通过优化NVIDIA GPU,利用PTX编程语言显著提升AI模型训练速度,将成本降低至20亿美元,促进AI创新的公平竞争。

DeepSeek - 回顾

DEV Community
DEV Community · 2025-02-28T20:46:48Z

DeepSeek-V3论文引发关注,因其绕过CUDA,利用PTX语言提升硬件效率达10倍。分析指出其重建架构挑战英伟达技术壁垒,尽管PTX复杂,DeepSeek仍与AMD等合作,展示优化能力,可能推动AI自我改进。

“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?

量子位
量子位 · 2025-01-29T03:49:53Z
Clang 如何支持 CUDA 程序

本文介绍了fatbin文件的结构和生成方式,它是一个包含多个entry的容器,每个entry包含一个头部和一个ELF或PTX的payload。fatbin头部记录了一些信息,方便CUDA Runtime快速定位到要使用的ELF或PTX。此外,fatbin还采用了简单的压缩算法来减小文件大小。

Clang 如何支持 CUDA 程序

杰哥的小笔记
杰哥的小笔记 · 2023-10-17T00:00:00Z

NVIDIA CUDA的NVCC编译过程之前已经介绍过了,编译ptx后,会生成cubin文件。 cubin文件是包含了CUDA执行代码节的ELF格式文件。类似于我们常见运行文件。而官方提供了两个工具来反编译cubin文件到sass文件(类似常见的汇编),官方使用文档。 nvdisasm n

解读CUDA汇编PTX(二) SASS nvdisasm工具

FindHao
FindHao · 2018-02-01T02:29:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码