深度解读昇腾CANN模型下沉技术,提升模型调度性能
原文中文,约3600字,阅读约需9分钟。
📝
内容提要
本文介绍了昇腾CANN模型下沉技术,通过图模式的Host调度和模型下沉调度,优化模型执行性能。模型下沉调度分为模型加载和模型执行两个阶段,降低调度耗时。模型下沉执行方式减少了CPU负载、通信抖动,并提升了E2E收益。模型下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。
🎯
关键要点
-
本文介绍了昇腾CANN模型下沉技术,优化模型执行性能。
-
模型下沉调度分为模型加载和模型执行两个阶段,降低调度耗时。
-
Host调度需要Host和Device频繁交互,可能导致Device空闲状态。
-
Device Bound模型和Host Bound模型的调度开销分析。
-
静态shape模型在编译时可确定所有算子的输入输出shape,优化Host调度性能。
-
模型下沉调度可以减少Device执行时序的空闲时间。
-
模型下沉执行方式减少了CPU负载和通信抖动,提升E2E收益。
-
下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。
-
以LLaMA-7B模型为例,模型下沉执行提升了吞吐量和性能。
❓
延伸问答
昇腾CANN模型下沉技术的主要目的是什么?
主要目的是优化模型执行性能,降低调度耗时。
模型下沉调度分为哪两个阶段?
模型加载和模型执行两个阶段。
什么是Host Bound模型?
Host Bound模型是指Device执行Task的速度比Host下发Task的速度快,导致Device处于空闲状态。
静态shape模型的特点是什么?
静态shape模型的输入tensor shape是固定不变的,所有算子的输入输出shape在编译时可确定。
模型下沉执行的优势有哪些?
减少CPU负载、减少通信抖动、提升E2E收益。
下沉头开销包括哪些部分?
包括Tensor转换、地址刷新、异步拷贝和模型执行任务。
🏷️