深度解读昇腾CANN多流并行技术,提高硬件资源利用率

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

华为昇腾CANN多流并行技术提高硬件资源利用率,通过多流并行算法将计算任务下发到不同引擎上并发执行,受网络拓扑结构、节点引擎类型和AI处理器能力等因素影响,适用于静态shape的离线推理场景和Pytorch框架的计算图模式。

🎯

关键要点

  • 华为昇腾CANN多流并行技术提高硬件资源利用率。

  • 多流并行算法将计算任务下发到不同引擎上并发执行。

  • 适用于静态shape的离线推理场景和Pytorch框架的计算图模式。

  • 昇腾AI处理器内置丰富的硬件计算资源,支持不同计算任务。

  • GE图引擎采用多流并行算法,支持高效并发执行计算任务。

  • 多流并行技术通过分配Stream提升硬件资源利用率。

  • 计算与通信引擎、不同计算引擎及相同计算引擎内的任务可并行执行。

  • 并行执行效果受网络拓扑结构、节点引擎类型和AI处理器能力影响。

  • 在Atlas 800I A2推理产品上,LLaMA-65B模型执行性能提升30%。

  • 多流并行技术会占用更多Device流资源,内存占用增加约7%。

  • 开发者可通过参数灵活控制多流并行技术的使能。

延伸问答

昇腾CANN多流并行技术的主要功能是什么?

昇腾CANN多流并行技术通过多流并行算法提高硬件资源利用率,支持计算任务的并发执行。

多流并行技术适用于哪些场景?

多流并行技术适用于静态shape的离线推理场景和Pytorch框架的计算图模式。

多流并行技术如何影响硬件资源的使用?

多流并行技术通过分配Stream提升硬件资源利用率,但会占用更多Device流资源,内存占用增加约7%。

多流并行技术的执行效果受哪些因素影响?

执行效果受网络拓扑结构、节点引擎类型和AI处理器能力等因素影响。

如何使能昇腾CANN的多流并行技术?

开发者可通过参数设置,在静态shape的离线推理场景和Pytorch框架下默认使能多流并行技术。

在Atlas 800I A2推理产品上,多流并行技术的性能提升如何?

在Atlas 800I A2推理产品上,LLaMA-65B模型执行性能提升约30%。

🏷️

标签

➡️

继续阅读