深度解读昇腾CANN多流并行技术,提高硬件资源利用率
原文中文,约2200字,阅读约需6分钟。
📝
内容提要
华为昇腾CANN多流并行技术提高硬件资源利用率,通过多流并行算法将计算任务下发到不同引擎上并发执行,受网络拓扑结构、节点引擎类型和AI处理器能力等因素影响,适用于静态shape的离线推理场景和Pytorch框架的计算图模式。
🎯
关键要点
-
华为昇腾CANN多流并行技术提高硬件资源利用率。
-
多流并行算法将计算任务下发到不同引擎上并发执行。
-
适用于静态shape的离线推理场景和Pytorch框架的计算图模式。
-
昇腾AI处理器内置丰富的硬件计算资源,支持不同计算任务。
-
GE图引擎采用多流并行算法,支持高效并发执行计算任务。
-
多流并行技术通过分配Stream提升硬件资源利用率。
-
计算与通信引擎、不同计算引擎及相同计算引擎内的任务可并行执行。
-
并行执行效果受网络拓扑结构、节点引擎类型和AI处理器能力影响。
-
在Atlas 800I A2推理产品上,LLaMA-65B模型执行性能提升30%。
-
多流并行技术会占用更多Device流资源,内存占用增加约7%。
-
开发者可通过参数灵活控制多流并行技术的使能。
❓
延伸问答
昇腾CANN多流并行技术的主要功能是什么?
昇腾CANN多流并行技术通过多流并行算法提高硬件资源利用率,支持计算任务的并发执行。
多流并行技术适用于哪些场景?
多流并行技术适用于静态shape的离线推理场景和Pytorch框架的计算图模式。
多流并行技术如何影响硬件资源的使用?
多流并行技术通过分配Stream提升硬件资源利用率,但会占用更多Device流资源,内存占用增加约7%。
多流并行技术的执行效果受哪些因素影响?
执行效果受网络拓扑结构、节点引擎类型和AI处理器能力等因素影响。
如何使能昇腾CANN的多流并行技术?
开发者可通过参数设置,在静态shape的离线推理场景和Pytorch框架下默认使能多流并行技术。
在Atlas 800I A2推理产品上,多流并行技术的性能提升如何?
在Atlas 800I A2推理产品上,LLaMA-65B模型执行性能提升约30%。
🏷️