深度解读昇腾CANN模型下沉技术,提升模型调度性能

💡 原文中文,约3600字,阅读约需9分钟。
📝

内容提要

本文介绍了昇腾CANN模型下沉技术,通过图模式的Host调度和模型下沉调度,优化模型执行性能。模型下沉调度分为模型加载和模型执行两个阶段,降低调度耗时。模型下沉执行方式减少了CPU负载、通信抖动,并提升了E2E收益。模型下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。

🎯

关键要点

  • 本文介绍了昇腾CANN模型下沉技术,优化模型执行性能。
  • 模型下沉调度分为模型加载和模型执行两个阶段,降低调度耗时。
  • Host调度需要Host和Device频繁交互,可能导致Device空闲状态。
  • Device Bound模型和Host Bound模型的调度开销分析。
  • 静态shape模型在编译时可确定所有算子的输入输出shape,优化Host调度性能。
  • 模型下沉调度可以减少Device执行时序的空闲时间。
  • 模型下沉执行方式减少了CPU负载和通信抖动,提升E2E收益。
  • 下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。
  • 以LLaMA-7B模型为例,模型下沉执行提升了吞吐量和性能。
➡️

继续阅读