深度解读昇腾CANN多流并行技术,提高硬件资源利用率
💡
原文中文,约2200字,阅读约需6分钟。
📝
内容提要
华为昇腾CANN多流并行技术提高硬件资源利用率,通过多流并行算法将计算任务下发到不同引擎上并发执行,受网络拓扑结构、节点引擎类型和AI处理器能力等因素影响,适用于静态shape的离线推理场景和Pytorch框架的计算图模式。
🎯
关键要点
- 华为昇腾CANN多流并行技术提高硬件资源利用率。
- 多流并行算法将计算任务下发到不同引擎上并发执行。
- 适用于静态shape的离线推理场景和Pytorch框架的计算图模式。
- 昇腾AI处理器内置丰富的硬件计算资源,支持不同计算任务。
- GE图引擎采用多流并行算法,支持高效并发执行计算任务。
- 多流并行技术通过分配Stream提升硬件资源利用率。
- 计算与通信引擎、不同计算引擎及相同计算引擎内的任务可并行执行。
- 并行执行效果受网络拓扑结构、节点引擎类型和AI处理器能力影响。
- 在Atlas 800I A2推理产品上,LLaMA-65B模型执行性能提升30%。
- 多流并行技术会占用更多Device流资源,内存占用增加约7%。
- 开发者可通过参数灵活控制多流并行技术的使能。
➡️