李文举 ·

CUDA多GPU编程要点

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

多GPU的要点包括使用多GPU的原因、GPU间通信模式、设备选择、64位应用程序的点对点通信、点对点访问的启用与关闭、点对点内存复制以及多GPU的同步机制。流和事件在多GPU应用中适用，内存复制无需显式设置当前设备。

🎯

❓

使用多GPU可以提高计算性能和效率。

可以通过CUDA P2P API进行点对点传输，允许在同一PCIe根节点上的GPU之间直接通信。

需要检查设备支持情况，并使用相应的CUDA API显式启用点对点访问。

可以使用cudaMemcpyPeerAsync函数进行异步的点对点内存复制。

多GPU间的同步可以通过流和事件实现，流中的内核启动和事件记录需要与当前设备关联。

跨设备的内存复制不需要显式设置当前设备，内存复制的行为不受设备指定的影响。

🏷️

The latest AI news we announced in May 2026
May AI recap
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
MAHA希望将棉花打造成新的牛脂
美国农业部推出“伟大的美国棉花计划”，旨在推广本土棉花，支持农民和国内制造业。尽管消费者对天然纤维服装的兴趣上升，但棉花生产面临高成本和化学品使用问题，且...
深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...
你说我的新智能秤是‘为GLP-1用户设计的’是什么意思？
Withings推出的BodyFit智能秤专为GLP-1用户设计，旨在监测肌肉质量。GLP-1药物可能导致肌肉流失，因此需要关注蛋白质摄入和力量训练。尽管...
这家人工智能初创公司声称能够判断一个剧本是否会成为热门电影
AI初创公司Quilty声称通过剧本分析预测电影票房成功，但实际测试结果不佳，预测不准确。Quilty结合多种AI工具提供剧本分析和成功概率评分，旨在帮助...