深度解读昇腾CANN多流并行技术,提高硬件资源利用率

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

华为昇腾CANN多流并行技术提高硬件资源利用率,通过多流并行算法将计算任务下发到不同引擎上并发执行,受网络拓扑结构、节点引擎类型和AI处理器能力等因素影响,适用于静态shape的离线推理场景和Pytorch框架的计算图模式。

🎯

关键要点

  • 华为昇腾CANN多流并行技术提高硬件资源利用率。
  • 多流并行算法将计算任务下发到不同引擎上并发执行。
  • 适用于静态shape的离线推理场景和Pytorch框架的计算图模式。
  • 昇腾AI处理器内置丰富的硬件计算资源,支持不同计算任务。
  • GE图引擎采用多流并行算法,支持高效并发执行计算任务。
  • 多流并行技术通过分配Stream提升硬件资源利用率。
  • 计算与通信引擎、不同计算引擎及相同计算引擎内的任务可并行执行。
  • 并行执行效果受网络拓扑结构、节点引擎类型和AI处理器能力影响。
  • 在Atlas 800I A2推理产品上,LLaMA-65B模型执行性能提升30%。
  • 多流并行技术会占用更多Device流资源,内存占用增加约7%。
  • 开发者可通过参数灵活控制多流并行技术的使能。
➡️

继续阅读