小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
字节Agent自主优化GPU内核:挑战英伟达CUDA护城河

字节跳动开发的AI CUDA Agent能够自主优化CUDA代码,其性能超越人类专家40%。该AI通过强化学习快速发现传统编译器无法识别的优化技巧,可能会加剧硬件市场竞争,推动显卡选择不再受限于CUDA。

字节Agent自主优化GPU内核:挑战英伟达CUDA护城河

极道
极道 · 2026-06-03T22:12:00Z
在 Amazon EKS 上使用 NVIDIA GPU Operator 管理自定义 GPU 驱动与 CUDA 工作负载

在Amazon EKS上,使用NVIDIA GPU Operator可以有效管理自定义GPU驱动和CUDA工作负载。EKS通过EC2节点支持GPU工作负载,GPU Operator简化了驱动的安装和管理,确保容器的稳定运行。选择EKS托管节点组可以降低运维负担。同时,结合Kiro和AWS MCP,平台团队能够通过自然语言进行集群巡检和问题排查,从而提升运维效率。

在 Amazon EKS 上使用 NVIDIA GPU Operator 管理自定义 GPU 驱动与 CUDA 工作负载

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-06-03T09:22:40Z
官宣!台积电引入英伟达CUDA-X技术,光刻成本最高暴降50%

英伟达与台积电达成深度合作,全面采用其加速计算与人工智能技术,提升芯片设计与生产效率。台积电在光刻、晶体管模拟、数据分析和缺陷检测等领域利用英伟达技术实现显著优化,光刻环节成本效益提升20%-50%。此外,台积电还探索数字孪生技术以提升生产规划效率。

官宣!台积电引入英伟达CUDA-X技术,光刻成本最高暴降50%

TechWeb 全站精华
TechWeb 全站精华 · 2026-06-02T06:04:55Z
Rust拥抱GPU:英伟达官方推CUDA-oxide安全性与编译革命解读

Nvidia推出CUDA-oxide工具,使Rust代码可直接编译为GPU程序,简化了GPU编程。通过在Rust函数上添加#[gpu]标签,编译器自动处理GPU指令,提升了编译效率和安全性。这一创新为AI生成代码提供了更好的类型检查,降低了开发门槛。

Rust拥抱GPU:英伟达官方推CUDA-oxide安全性与编译革命解读

极道
极道 · 2026-05-12T00:49:00Z

本文介绍了如何在PyTorch中实现自定义操作,包括使用C++和CUDA编写自定义函数和类。通过示例代码,展示了如何注册和使用这些自定义操作,确保它们在PyTorch模型和AOTInductor编译的推理程序中正常工作,并讨论了模型导出及推理验证。

PyTorch自定义操作

Lei Mao's Log Book
Lei Mao's Log Book · 2026-05-10T07:00:00Z

NVIDIA 发布了实验性项目 CUDA-Oxide,旨在将 Rust 代码直接编译为 CUDA 内核,支持单源代码工作流。Burn 0.21.0 更新显著提升了分布式训练性能,框架开销降低至原来的八分之一。Symbolic Software 推出的 hpke-ng 实现了更快、更安全的 Rust HPKE,解决了安全问题。Monocurl 是一个交互式数学动画工具,结合了数学表达与动画渲染。

【Rust日报】2026-05-09 NVIDIA 发布 CUDA-Oxide 0.1:实验性 Rust 到 CUDA 编译器

Rust.cc
Rust.cc · 2026-05-09T01:08:14Z
提高`nvptx64-nvidia-cuda`目标的基准

Rust 1.97将于2026年7月9日发布,更新nvptx64-nvidia-cuda目标的PTX ISA版本,移除对2017年及之前GPU架构的支持。这将提升编译器的正确性和性能,但不再支持旧版CUDA驱动或低于7.0的GPU。

提高`nvptx64-nvidia-cuda`目标的基准

Rust Blog
Rust Blog · 2026-05-01T00:00:00Z
DeepSeek发布Tile Kernels:用TileLang榨干GPU并打破CUDA垄断

DeepSeek发布的Tile Kernels通过TileLang优化GPU性能,打破了CUDA的垄断,推动AI工程从模型设计转向系统能力。TileLang简化了GPU开发,支持跨硬件执行,提升了效率。然而,技术进步导致能力差距扩大,顶级团队获得更高效率,而大多数团队难以跟上。这一变化将重塑AI基础设施的竞争格局。

DeepSeek发布Tile Kernels:用TileLang榨干GPU并打破CUDA垄断

极道
极道 · 2026-04-23T12:52:00Z

本文探讨了NVIDIA的CUDA生态系统,包括编译链、高层工具、分层结构、数学库(如cuBLAS和cuDNN)、通信库(如NCCL)及Triton DSL。文章比较了AMD ROCm和华为CANN的定位,分析了CUDA在大模型训练中的重要性和优势,并强调了性能调优工具Nsight的使用,以及FP8训练的潜在问题和解决方案。

【大模型基础设施工程】03:CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
黄仁勋都被问毛了:顶级AI厂商在去CUDA?“你的前提就是错的”

黄仁勋在访谈中谈到英伟达的成功与未来,强调其强大的合作伙伴生态系统和对稀缺组件的提前采购承诺。他认为AI工具的普及将推动软件公司快速增长,尽管面临供应链瓶颈,英伟达依然能通过技术创新和高效合作应对挑战。此外,他指出英伟达的架构灵活性使其在AI领域保持竞争力,未来将继续推动加速计算的发展。

黄仁勋都被问毛了:顶级AI厂商在去CUDA?“你的前提就是错的”

量子位
量子位 · 2026-04-19T04:14:11Z

在GPU编程中,页锁定主机内存可加速CPU与GPU之间的数据传输。文章探讨了页表的概念及其在多个进程共享页锁定内存时的GPU内存开销。每个进程都有独立的页表,可能导致内存浪费。为减少开销,建议使用CUDA进程间通信(IPC),通过主进程管理页锁定内存,避免重复的GPU页表,从而提高效率。

页锁定主机内存的页表

Lei Mao's Log Book
Lei Mao's Log Book · 2026-04-12T07:00:00Z
NVIDIA H100的CUDA编程

学习CUDA编程,掌握NVIDIA Hopper GPU的WGMMA管道和Cutlass优化,适用于大规模矩阵乘法和现代AI。课程包括多GPU扩展及训练万亿参数模型所需的NCCL原语,需具备C++和线性代数基础。

NVIDIA H100的CUDA编程

freeCodeCamp.org
freeCodeCamp.org · 2026-04-09T22:44:17Z
开源模型首超Opus4.6!智谱GLM-5.1登场,14小时后CUDA专家被冲了

智谱GLM-5.1模型在长程任务能力上取得显著突破,能够在14小时内优化CUDA Kernel,速度提升至35.7倍。该模型展示了自主编程、测试和优化的能力,且能在1小时内构建MacOS环境。在SWE-bench Pro测试中,GLM-5.1超越多款顶尖模型,标志着中国开源AI的崛起,推动行业变革。

开源模型首超Opus4.6!智谱GLM-5.1登场,14小时后CUDA专家被冲了

量子位
量子位 · 2026-04-08T06:29:23Z
【Rust日报】2026-04-07 Khal:一次编写,可在 WebGPU、Cuda、CPU 上运行的抽象层

Khal是一个抽象层,允许开发者使用Rust编写代码并在多平台上运行,包括WebGPU和CUDA。Vortx是一个支持基本张量运算的跨平台张量库。rust-analyzer更新了VSIX安装包,修复了一些问题并增加了新功能。Rust领导委员会进行了人员调整。

【Rust日报】2026-04-07 Khal:一次编写,可在 WebGPU、Cuda、CPU 上运行的抽象层

Rust.cc
Rust.cc · 2026-04-07T00:55:48Z
速度与安全

Boost的int128库现已支持CUDA,几乎所有函数可在主机和设备上使用。Boost.Charconv和Boost.Decimal也将因此提升性能。此外,Boost.Safe_Numbers库将提供安全的算术操作并支持CUDA。我们将继续改进错误报告系统,以提升用户体验。

速度与安全

The C++ Alliance
The C++ Alliance · 2026-04-06T00:00:00Z
零侵入、极简适配!飞桨CINN实现类CUDA硬件“即插即用”

飞桨推出插件式CUDA兼容硬件接入方案,模型推理速度提升2.2倍。通过C接口实现CINN编译器与硬件解耦,支持动态注册,降低适配成本,促进国产芯片融入AI生态。

零侵入、极简适配!飞桨CINN实现类CUDA硬件“即插即用”

百度大脑
百度大脑 · 2026-04-03T11:00:10Z
黄仁勋回应一切:木匠、水管工看到 Al 应该最兴奋

黄仁勋在访谈中回顾了英伟达的成功,强调了CUDA的重要性和协同设计的必要性。他指出,AI的发展依赖于算力和数据,未来编程将更加普及,更多人将参与创新。他对人类未来充满信心,期待解决更多全球性问题。

黄仁勋回应一切:木匠、水管工看到 Al 应该最兴奋

爱范儿
爱范儿 · 2026-03-24T07:51:06Z

在CUDA程序调试中,设置CUDA_LAUNCH_BLOCKING=1比在每个内核后使用cudaDeviceSynchronize()更有效。前者确保内核执行不重叠,有助于准确定位复杂错误,如竞争条件,而后者可能无法精确定位问题。

CUDA_LAUNCH_BLOCKING=1

Lei Mao's Log Book
Lei Mao's Log Book · 2026-03-20T07:00:00Z
Modular 26.2:先进的图像生成与Mojo优化的AI编程

Modular平台发布26.2版本,新增图像生成和编辑功能,支持FLUX.2模型,性能提升4倍。Mojo语言优化AI编程,简化GPU内核开发,支持CUDA转Mojo。此版本提升了图像生成速度,降低了总拥有成本,适用于云和企业用户。

Modular 26.2:先进的图像生成与Mojo优化的AI编程

Modular Blog
Modular Blog · 2026-03-19T00:00:00Z
没人比英伟达,更懂「下一代 AI 计算」

在2026年GTC大会上,英伟达创始人黄仁勋庆祝CUDA生态20周年,推出Vera Rubin AI芯片和Rosa CPU,强调AI时代对计算需求的激增。这些新产品提升了算力和能效,推动智能体AI的发展。同时,英伟达发布了OpenClaw参考方案,帮助企业转型为智能体服务公司。黄仁勋展望未来,认为AI将改变工作方式和薪酬结构,推动行业变革。

没人比英伟达,更懂「下一代 AI 计算」

TechWeb 全站精华
TechWeb 全站精华 · 2026-03-17T02:58:07Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码