华为云官方博客 ·

深度解读昇腾CANN多流并行技术，提高硬件资源利用率

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

华为昇腾CANN多流并行技术提高硬件资源利用率，通过多流并行算法将计算任务下发到不同引擎上并发执行，受网络拓扑结构、节点引擎类型和AI处理器能力等因素影响，适用于静态shape的离线推理场景和Pytorch框架的计算图模式。

🎯

关键要点

华为昇腾CANN多流并行技术提高硬件资源利用率。
多流并行算法将计算任务下发到不同引擎上并发执行。
适用于静态shape的离线推理场景和Pytorch框架的计算图模式。
昇腾AI处理器内置丰富的硬件计算资源，支持不同计算任务。
GE图引擎采用多流并行算法，支持高效并发执行计算任务。
多流并行技术通过分配Stream提升硬件资源利用率。
计算与通信引擎、不同计算引擎及相同计算引擎内的任务可并行执行。
并行执行效果受网络拓扑结构、节点引擎类型和AI处理器能力影响。
在Atlas 800I A2推理产品上，LLaMA-65B模型执行性能提升30%。
多流并行技术会占用更多Device流资源，内存占用增加约7%。
开发者可通过参数灵活控制多流并行技术的使能。

❓

延伸问答

昇腾CANN多流并行技术的主要功能是什么？

昇腾CANN多流并行技术通过多流并行算法提高硬件资源利用率，支持计算任务的并发执行。

多流并行技术适用于哪些场景？

多流并行技术适用于静态shape的离线推理场景和Pytorch框架的计算图模式。

多流并行技术如何影响硬件资源的使用？

多流并行技术通过分配Stream提升硬件资源利用率，但会占用更多Device流资源，内存占用增加约7%。

多流并行技术的执行效果受哪些因素影响？

执行效果受网络拓扑结构、节点引擎类型和AI处理器能力等因素影响。

如何使能昇腾CANN的多流并行技术？

开发者可通过参数设置，在静态shape的离线推理场景和Pytorch框架下默认使能多流并行技术。

在Atlas 800I A2推理产品上，多流并行技术的性能提升如何？

在Atlas 800I A2推理产品上，LLaMA-65B模型执行性能提升约30%。

🏷️

标签

Pytorch框架 cann 华为昇腾CANN 多流并行技术并行硬件资源利用率静态shape

➡️

继续阅读

现代语聊房背后的技术栈：API、云基础设施与实时数据
很少有哪个面向消费者的行业能像语聊房一样把实时通信技术应用到极限。每一路音频流、每一个礼物动效、每一次实时互动背后，都隐藏着令任何实时音视频开发工程师都似...
视频问诊系统如何判断厂商的技术可靠性
选视频问诊供应商时，”技术可不可靠”是最重要也最难判断的维度。市场宣传里每家都说自己稳定、低延迟、高画质。但技术可靠性不是靠一句话能判断的，它需要看几个可以...
一万五刀跑通7530亿参数GLM-5.2：开源模型量化压缩技术全解析
AI模型价格从70万打到1.5万，开源社区是把大厂当韭菜割了吗？ 80%的模型体积被削掉，智商居然还保留82%。一群民间高手在Discord里把7530亿...
受AI冲击GitHub改革漏洞奖励计划大幅度下调奖励金额但升级VIP后奖励翻四倍
#安全资讯受 AI 冲击 GitHub 宣布改革漏洞奖励项目，大幅度下调漏洞奖励金额，但如果成为 VIP 则漏洞奖励直接翻四倍。安全研究员需要提交有价值...
三步爆改旧鼠标，打造最好用的 AI 外挂｜AI 器物志
230 刀的 Codex 键盘很好，但不是每个人都需要。#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
Meta Ports React Compiler to Rust for Faster Builds and Tighter Toolchain Integration
Meta's React library has integrated a Rust version of the React Compiler ...