张小凯的博客 ·

一、并行编程导论与CUDA入门

💡 原文中文，约15000字，阅读约需36分钟。

📝

内容提要

随着人工智能的发展，CUDA在矩阵和张量计算中变得愈发重要。CUDA是NVIDIA的并行计算平台，支持C/C++语法，通过SIMT模式实现多线程并行计算。CPU负责数据准备和结果整理，GPU则进行高效的并行计算，广泛应用于深度学习和科学计算。

🎯

❓

CUDA是NVIDIA开发的并行计算平台，支持C/C++语法，具有SIMT模式，允许多个线程同时执行同一指令。

CUDA程序执行主要分为数据准备、数据传输、数据读取、运算、写回和结果传输等步骤。

CPU负责数据准备和结果整理，GPU进行高效的并行计算，二者通过数据传输实现协同工作。

核函数是CUDA中的设备侧入口函数，使用__global__标识，负责在GPU上执行并行计算。

优化核函数调用可以减少性能开销，提高计算效率，使用性能分析工具Nsight Systems也能帮助分析性能瓶颈。

CUDA支持的最大线程数和块大小受限于GPU的硬件特性，如maxGridSize和maxThreadsPerBlock等参数。

🏷️

在线教程丨Qwen3.6系列首个开源模型Agent编程能力大涨，激活参数仅3B超越Gemma4-31B
Qwen3.6-35B-A3B 模型近日开源，性能优于 Qwen3.5 和 Gemma4 系列，编程基准测试显著提升，新增“思考过程留存”功能，简化开发流...
人工智能反对声将在选举中出现
美国人对人工智能（AI）感到担忧，尤其是其对就业和社会的影响。超过60%的受访者支持政府监管AI，但在选举中，经济和移民等问题仍然优先。反对数据中心项目的...
OpenAI更新版图像生成器现可从网络获取信息
OpenAI推出了更新版的图像生成器ChatGPT Images 2.0，具备新的思考能力，能够从网络获取信息，并基于单一提示生成多幅图像。该版本支持更高...
微软为何押注于临时身份以防止自主代理失控
在KubeCon Europe 2026上，微软Azure Kubernetes服务项目经理Jorge Palma讨论了边缘AI的运行机制和安全性，强调临...
Framework Laptop 13 Pro 发布活动
Framework在旧金山发布了新款Laptop 13 Pro，旨在成为Linux用户的“MacBook Pro”。该笔记本采用全铝材质，具备更长的电池续...
The zero-days are numbered
Since February, the Firefox team has been working around the clock using fron...