小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI

本文介绍了如何将CUDA与Go语言结合,以实现高性能计算。通过Sam Burns的演讲,展示了GPU在并行计算中的优势,特别是在矩阵乘法示例中,强调了Go语言处理大规模数据的潜力。

当 Go 遇上 GPU:用 CUDA 释放千倍算力的实战指南

Tony Bai
Tony Bai · 2026-01-20T23:31:17Z
模块化:如何在没有GPU经验的情况下,使用Mojo击败Unsloth的CUDA内核

一位Mojo社区成员利用AI在Mojo中解决了量化挑战,其速度比C++/CUDA实现快1.07到1.84倍。Mojo简化了GPU编程,适合开发者使用。

模块化:如何在没有GPU经验的情况下,使用Mojo击败Unsloth的CUDA内核

Modular Blog
Modular Blog · 2026-01-14T00:00:00Z

CUDA图是提升GPU性能的有效工具,PyTorch提供了torch.cuda.graph和torch.cuda.make_graphed_callables两个API来捕获和重放CUDA图。前者需要手动管理,后者简化了流程,适用于不同场景以提升PyTorch模型性能。

PyTorch CUDA图捕获

Lei Mao's Log Book
Lei Mao's Log Book · 2026-01-12T08:00:00Z
模块化:我如何在没有任何GPU经验的情况下,使用Mojo击败Unsloth的CUDA内核

我参加了一个量化挑战,使用Mojo编程,结果比C++/CUDA实现快1.07到1.84倍。Mojo简化了GPU编程,适合开发者尝试。

模块化:我如何在没有任何GPU经验的情况下,使用Mojo击败Unsloth的CUDA内核

Modular Blog
Modular Blog · 2026-01-12T00:00:00Z
OpenCV 4.13 发布,更多 AVX-512 指令集的使用、CUDA 13 支持及其他功能

OpenCV 4.13 于新年夜发布,增强了计算机视觉功能,优化了 Windows on ARM 性能,支持 AVX-512 指令集,新增图像处理模块,改进了 JavaScript、Python 和 Java 绑定,并支持 NVIDIA CUDA 13.0。

OpenCV 4.13 发布,更多 AVX-512 指令集的使用、CUDA 13 支持及其他功能

实时互动网
实时互动网 · 2026-01-04T02:07:23Z

2025 年 12 月,在 CUDA 发布近二十年后,NVIDIA 推出新的 GPU 编程入口「cuTile」,通过 Tile-based 编程模型重构 GPU 内核,使开发者无需深入 CUDA C++ 即可高效编写 Kernel,引发社区热议。尽管仍处早期,Tile 思维的抽象优势、社区探索迁移工具及实践尝试表明,cuTile 有潜力成为 GPU 编程新范式,其未来取决于生态成熟度、迁移成本及性能表现。

CUDA初始团队成员锐评cuTile「专打」Triton,Tile范式能否重塑GPU编程生态竞争格局

HyperAI超神经
HyperAI超神经 · 2025-12-17T08:09:10Z

英伟达发布CUDA 13.1,推出CUDA Tile编程模型,使开发者仅需15行Python代码即可实现相当于200行C++的GPU性能。这一变化降低了GPU编程的门槛,吸引更多数据科学家参与,但也引发了对CUDA“护城河”被削弱的担忧。

英伟达自毁CUDA门槛!15行Python写GPU内核,性能匹敌200行C++

量子位
量子位 · 2025-12-08T05:44:18Z

刚刚,英伟达CUDA迎来史上最大更新!

机器之心
机器之心 · 2025-12-06T12:40:47Z
如何在Windows 11上设置CUDA和WSL2(包括PyTorch和TensorFlow GPU)

在复杂的机器学习项目中,使用Nvidia GPU可以提升效率。新手可通过Kaggle或Colab入门,但深入学习时需使用本地GPU。Windows 11用户可通过WSL2配置Nvidia GPU,本文提供CUDA设置及TensorFlow、PyTorch安装的详细步骤,以确保GPU加速。

如何在Windows 11上设置CUDA和WSL2(包括PyTorch和TensorFlow GPU)

freeCodeCamp.org
freeCodeCamp.org · 2025-12-03T20:20:46Z

DeepSeek v3.2引入国产GPU语言TileLang,取代Triton,提升性能。TileLang简化GPU内核开发,支持华为昇腾,适合不同水平的开发者。DeepSeek团队利用TileLang快速开发原型,验证其在模型训练中的有效性。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

量子位
量子位 · 2025-09-30T01:19:44Z

DeepSeek最新模型V3.2-Exp上线,采用新稀疏注意力机制DSA,提升长文本推理效率,并开源TileLang和CUDA算子,API价格降至五折,国庆礼包也令人惊喜。

DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪

量子位
量子位 · 2025-09-29T10:52:21Z
Canonical将在Ubuntu存储库中分发NVIDIA CUDA工具包 让开发者部署CUDA更轻松

Canonical 与英伟达合作,将在 Ubuntu 存储库中打包和分发 NVIDIA CUDA 工具包,简化开发者的部署流程。开发者可通过单一命令轻松安装 GPU 加速库和编译器,提高应用开发效率。具体发布时间待定。

Canonical将在Ubuntu存储库中分发NVIDIA CUDA工具包 让开发者部署CUDA更轻松

蓝点网
蓝点网 · 2025-09-16T05:29:09Z
AMD ROCm 追赶 NVIDIA CUDA:AI 芯片格局将变

Tiny Corp 表示,AMD 在软件方面取得了显著进展,缩小了与 NVIDIA 的差距,可能在 NVIDIA 出错时超越其市场主导地位。AMD 的 ROCm 平台提升了 AI 推理性能,并计划在更多设备上支持该平台,挑战 NVIDIA 的市场地位。尽管 NVIDIA 仍占据 92% 的市场份额,AMD 的技术成熟可能改变竞争格局。

AMD ROCm 追赶 NVIDIA CUDA:AI 芯片格局将变

myfreax
myfreax · 2025-08-29T13:59:00Z

浮点常数(如无穷大、最大值、最小值和零)在数值算法和科学计算中至关重要。本文通过C++、CUDA和Python的代码示例,讨论了这些常数的特性和行为的验证。

C++、CUDA和Python中的浮点常数值

Lei Mao's Log Book
Lei Mao's Log Book · 2025-08-22T07:00:00Z
使用Numba和CUDA在Python中编写您的第一个GPU内核

GPU适合处理相同操作的多数据,利用CUDA和Numba可以在Python中编写并行计算的CUDA内核。通过向量加法示例,展示了GPU加速的显著优势,显著提升了处理速度。

使用Numba和CUDA在Python中编写您的第一个GPU内核

KDnuggets
KDnuggets · 2025-08-18T16:00:35Z

飞桨框架3.0推出了多硬件统一适配方案,降低了硬件适配成本,支持即插即用接入。该方案通过插件架构和标准接口,简化接入流程,提升模型训练和推理性能,降低开发门槛,促进硬件生态落地。

飞桨硬件接入方案升级,CUDA兼容类硬件后端Kernel复用可达92.6%

百度大脑
百度大脑 · 2025-08-15T12:25:39Z

Introduction

CUDA Core Dump: An Effective Tool to Debug Memory Access Issues and Beyond

vLLM Blog
vLLM Blog · 2025-08-11T00:00:00Z
一、并行编程导论与CUDA入门

随着人工智能的发展,CUDA在矩阵和张量计算中变得愈发重要。CUDA是NVIDIA的并行计算平台,支持C/C++语法,通过SIMT模式实现多线程并行计算。CPU负责数据准备和结果整理,GPU则进行高效的并行计算,广泛应用于深度学习和科学计算。

一、并行编程导论与CUDA入门

张小凯的博客
张小凯的博客 · 2025-07-29T09:41:50Z
在WSL2中安装CUDA支持

本文介绍了如何在WSL2中安装NVIDIA CUDA Toolkit,以共享主机的显卡。首先确认显卡为Pascal架构及以上,并安装最新驱动。然后通过命令安装WSL2和Debian,最后根据官方文档安装CUDA Toolkit。

在WSL2中安装CUDA支持

泠泫凝的异次元空间
泠泫凝的异次元空间 · 2025-07-22T02:30:00Z

苹果为其MLX框架增加CUDA支持,表明其向英伟达妥协,旨在借助英伟达的生态系统增强AI市场竞争力。这一变化反映了苹果在AI领域的不足以及英伟达的市场主导地位,同时引发了对两者历史矛盾的讨论。

苹果向英伟达生态妥协了!MLX框架主动适配CUDA

量子位
量子位 · 2025-07-17T06:03:28Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码