深度解读昇腾CANN模型下沉技术,提升模型调度性能

💡 原文中文,约3600字,阅读约需9分钟。
📝

内容提要

本文介绍了昇腾CANN模型下沉技术,通过图模式的Host调度和模型下沉调度,优化模型执行性能。模型下沉调度分为模型加载和模型执行两个阶段,降低调度耗时。模型下沉执行方式减少了CPU负载、通信抖动,并提升了E2E收益。模型下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。

🎯

关键要点

  • 本文介绍了昇腾CANN模型下沉技术,优化模型执行性能。

  • 模型下沉调度分为模型加载和模型执行两个阶段,降低调度耗时。

  • Host调度需要Host和Device频繁交互,可能导致Device空闲状态。

  • Device Bound模型和Host Bound模型的调度开销分析。

  • 静态shape模型在编译时可确定所有算子的输入输出shape,优化Host调度性能。

  • 模型下沉调度可以减少Device执行时序的空闲时间。

  • 模型下沉执行方式减少了CPU负载和通信抖动,提升E2E收益。

  • 下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。

  • 以LLaMA-7B模型为例,模型下沉执行提升了吞吐量和性能。

延伸问答

昇腾CANN模型下沉技术的主要目的是什么?

主要目的是优化模型执行性能,降低调度耗时。

模型下沉调度分为哪两个阶段?

模型加载和模型执行两个阶段。

什么是Host Bound模型?

Host Bound模型是指Device执行Task的速度比Host下发Task的速度快,导致Device处于空闲状态。

静态shape模型的特点是什么?

静态shape模型的输入tensor shape是固定不变的,所有算子的输入输出shape在编译时可确定。

模型下沉执行的优势有哪些?

减少CPU负载、减少通信抖动、提升E2E收益。

下沉头开销包括哪些部分?

包括Tensor转换、地址刷新、异步拷贝和模型执行任务。

🏷️

标签

➡️

继续阅读