小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DeepSeek发布Tile Kernels:用TileLang榨干GPU并打破CUDA垄断

DeepSeek发布的Tile Kernels通过TileLang优化GPU性能,打破了CUDA的垄断,推动AI工程从模型设计转向系统能力。TileLang简化了GPU开发,支持跨硬件执行,提升了效率。然而,技术进步导致能力差距扩大,顶级团队获得更高效率,而大多数团队难以跟上。这一变化将重塑AI基础设施的竞争格局。

DeepSeek发布Tile Kernels:用TileLang榨干GPU并打破CUDA垄断

极道
极道 · 2026-04-23T12:52:00Z

本文探讨了NVIDIA的CUDA生态系统,包括编译链、高层工具、分层结构、数学库(如cuBLAS和cuDNN)、通信库(如NCCL)及Triton DSL。文章比较了AMD ROCm和华为CANN的定位,分析了CUDA在大模型训练中的重要性和优势,并强调了性能调优工具Nsight的使用,以及FP8训练的潜在问题和解决方案。

【大模型基础设施工程】03:CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
黄仁勋都被问毛了:顶级AI厂商在去CUDA?“你的前提就是错的”

黄仁勋在访谈中谈到英伟达的成功与未来,强调其强大的合作伙伴生态系统和对稀缺组件的提前采购承诺。他认为AI工具的普及将推动软件公司快速增长,尽管面临供应链瓶颈,英伟达依然能通过技术创新和高效合作应对挑战。此外,他指出英伟达的架构灵活性使其在AI领域保持竞争力,未来将继续推动加速计算的发展。

黄仁勋都被问毛了:顶级AI厂商在去CUDA?“你的前提就是错的”

量子位
量子位 · 2026-04-19T04:14:11Z

在GPU编程中,页锁定主机内存可加速CPU与GPU之间的数据传输。文章探讨了页表的概念及其在多个进程共享页锁定内存时的GPU内存开销。每个进程都有独立的页表,可能导致内存浪费。为减少开销,建议使用CUDA进程间通信(IPC),通过主进程管理页锁定内存,避免重复的GPU页表,从而提高效率。

页锁定主机内存的页表

Lei Mao's Log Book
Lei Mao's Log Book · 2026-04-12T07:00:00Z
NVIDIA H100的CUDA编程

学习CUDA编程,掌握NVIDIA Hopper GPU的WGMMA管道和Cutlass优化,适用于大规模矩阵乘法和现代AI。课程包括多GPU扩展及训练万亿参数模型所需的NCCL原语,需具备C++和线性代数基础。

NVIDIA H100的CUDA编程

freeCodeCamp.org
freeCodeCamp.org · 2026-04-09T22:44:17Z
开源模型首超Opus4.6!智谱GLM-5.1登场,14小时后CUDA专家被冲了

智谱GLM-5.1模型在长程任务能力上取得显著突破,能够在14小时内优化CUDA Kernel,速度提升至35.7倍。该模型展示了自主编程、测试和优化的能力,且能在1小时内构建MacOS环境。在SWE-bench Pro测试中,GLM-5.1超越多款顶尖模型,标志着中国开源AI的崛起,推动行业变革。

开源模型首超Opus4.6!智谱GLM-5.1登场,14小时后CUDA专家被冲了

量子位
量子位 · 2026-04-08T06:29:23Z
【Rust日报】2026-04-07 Khal:一次编写,可在 WebGPU、Cuda、CPU 上运行的抽象层

Khal是一个抽象层,允许开发者使用Rust编写代码并在多平台上运行,包括WebGPU和CUDA。Vortx是一个支持基本张量运算的跨平台张量库。rust-analyzer更新了VSIX安装包,修复了一些问题并增加了新功能。Rust领导委员会进行了人员调整。

【Rust日报】2026-04-07 Khal:一次编写,可在 WebGPU、Cuda、CPU 上运行的抽象层

Rust.cc
Rust.cc · 2026-04-07T00:55:48Z
速度与安全

Boost的int128库现已支持CUDA,几乎所有函数可在主机和设备上使用。Boost.Charconv和Boost.Decimal也将因此提升性能。此外,Boost.Safe_Numbers库将提供安全的算术操作并支持CUDA。我们将继续改进错误报告系统,以提升用户体验。

速度与安全

The C++ Alliance
The C++ Alliance · 2026-04-06T00:00:00Z
零侵入、极简适配!飞桨CINN实现类CUDA硬件“即插即用”

飞桨推出插件式CUDA兼容硬件接入方案,模型推理速度提升2.2倍。通过C接口实现CINN编译器与硬件解耦,支持动态注册,降低适配成本,促进国产芯片融入AI生态。

零侵入、极简适配!飞桨CINN实现类CUDA硬件“即插即用”

百度大脑
百度大脑 · 2026-04-03T11:00:10Z
黄仁勋回应一切:木匠、水管工看到 Al 应该最兴奋

黄仁勋在访谈中回顾了英伟达的成功,强调了CUDA的重要性和协同设计的必要性。他指出,AI的发展依赖于算力和数据,未来编程将更加普及,更多人将参与创新。他对人类未来充满信心,期待解决更多全球性问题。

黄仁勋回应一切:木匠、水管工看到 Al 应该最兴奋

爱范儿
爱范儿 · 2026-03-24T07:51:06Z

在CUDA程序调试中,设置CUDA_LAUNCH_BLOCKING=1比在每个内核后使用cudaDeviceSynchronize()更有效。前者确保内核执行不重叠,有助于准确定位复杂错误,如竞争条件,而后者可能无法精确定位问题。

CUDA_LAUNCH_BLOCKING=1

Lei Mao's Log Book
Lei Mao's Log Book · 2026-03-20T07:00:00Z
Modular 26.2:先进的图像生成与Mojo优化的AI编程

Modular平台发布26.2版本,新增图像生成和编辑功能,支持FLUX.2模型,性能提升4倍。Mojo语言优化AI编程,简化GPU内核开发,支持CUDA转Mojo。此版本提升了图像生成速度,降低了总拥有成本,适用于云和企业用户。

Modular 26.2:先进的图像生成与Mojo优化的AI编程

Modular Blog
Modular Blog · 2026-03-19T00:00:00Z
从盘古套壳到阿里真武 AI芯片大浪淘沙

2026年,中国AI芯片竞争加剧。阿里真武810E通过软件兼容性挑战CUDA,推动商业化。昇腾和寒武纪专注于推理,但灵活性不足。国产GPU如摩尔线程尚未盈利,龙芯则聚焦安全端侧市场。未来,能解决客户问题的企业将胜出。

从盘古套壳到阿里真武 AI芯片大浪淘沙

dotNET跨平台
dotNET跨平台 · 2026-02-27T00:02:32Z

本文比较了向量化和标量访问共享内存的性能,结果表明两者性能相当,且向量化访问不会引发共享内存银行冲突。通过合理设计访问模式,向量化访问能够有效减少指令数量,从而提升性能。

CUDA共享内存无银行冲突的向量化访问

Lei Mao's Log Book
Lei Mao's Log Book · 2026-02-13T08:00:00Z
告别N卡CUDA垄断,Windows+AMD显卡ROCm跑深度学习:手把手实现 MNIST 手写数字识别 - 曦远Code

本文介绍了在Windows系统和AMD显卡上成功编译ROCm版本的PyTorch,并通过MNIST手写数字识别脚本验证其性能。文章讲解了神经网络的基本概念,比较了前馈神经网络(FNN)与卷积神经网络(CNN)的区别,强调了CNN在图像处理中的优势。最后,展示了如何安装PyTorch、定义模型、准备数据并进行训练,成功实现了在AMD GPU上的训练过程。

告别N卡CUDA垄断,Windows+AMD显卡ROCm跑深度学习:手把手实现 MNIST 手写数字识别 - 曦远Code

程序设计实验室
程序设计实验室 · 2026-02-06T07:54:00Z

KernelCAT是一种国产AI算力方案,旨在解决算子开发难题。通过运筹优化技术,它提高了算子调优效率,增强了国产芯片性能,缩短了开发周期,促进了AI模型在本土平台的应用。

天下苦CUDA久矣,又一国产方案上桌了

量子位
量子位 · 2026-01-30T13:58:46Z

在CUDA编程中,管理多个流的依赖关系具有挑战性。使用汇合流可以简化多个生产者和消费者流的调度,确保消费者在所有生产者完成后再开始处理,从而提升代码的可维护性和性能。

CUDA 汇合流

Lei Mao's Log Book
Lei Mao's Log Book · 2026-01-26T08:00:00Z

本文介绍了如何将CUDA与Go语言结合,以实现高性能计算。通过Sam Burns的演讲,展示了GPU在并行计算中的优势,特别是在矩阵乘法示例中,强调了Go语言处理大规模数据的潜力。

当 Go 遇上 GPU:用 CUDA 释放千倍算力的实战指南

Tony Bai
Tony Bai · 2026-01-20T23:31:17Z
模块化:如何在没有GPU经验的情况下,使用Mojo击败Unsloth的CUDA内核

一位Mojo社区成员利用AI在Mojo中解决了量化挑战,其速度比C++/CUDA实现快1.07到1.84倍。Mojo简化了GPU编程,适合开发者使用。

模块化:如何在没有GPU经验的情况下,使用Mojo击败Unsloth的CUDA内核

Modular Blog
Modular Blog · 2026-01-14T00:00:00Z

CUDA图是提升GPU性能的有效工具,PyTorch提供了torch.cuda.graph和torch.cuda.make_graphed_callables两个API来捕获和重放CUDA图。前者需要手动管理,后者简化了流程,适用于不同场景以提升PyTorch模型性能。

PyTorch CUDA图捕获

Lei Mao's Log Book
Lei Mao's Log Book · 2026-01-12T08:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码