深度解读昇腾CANN多流并行技术,提高硬件资源利用率

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

华为昇腾CANN多流并行技术提高硬件资源利用率,通过多流并行算法将计算任务下发到不同引擎上并发执行,受网络拓扑结构、节点引擎类型和AI处理器能力等因素影响,适用于静态shape的离线推理场景和Pytorch框架的计算图模式。

🎯

关键要点

  • 华为昇腾CANN多流并行技术提高硬件资源利用率。

  • 多流并行算法将计算任务下发到不同引擎上并发执行。

  • 适用于静态shape的离线推理场景和Pytorch框架的计算图模式。

  • 昇腾AI处理器内置丰富的硬件计算资源,支持不同计算任务。

  • GE图引擎采用多流并行算法,支持高效并发执行计算任务。

  • 多流并行技术通过分配Stream提升硬件资源利用率。

  • 计算与通信引擎、不同计算引擎及相同计算引擎内的任务可并行执行。

  • 并行执行效果受网络拓扑结构、节点引擎类型和AI处理器能力影响。

  • 在Atlas 800I A2推理产品上,LLaMA-65B模型执行性能提升30%。

  • 多流并行技术会占用更多Device流资源,内存占用增加约7%。

  • 开发者可通过参数灵活控制多流并行技术的使能。

➡️

继续阅读