深度解读昇腾CANN模型下沉技术,提升模型调度性能
💡
原文中文,约3600字,阅读约需9分钟。
📝
内容提要
本文介绍了昇腾CANN模型下沉技术,通过图模式的Host调度和模型下沉调度,优化模型执行性能。模型下沉调度分为模型加载和模型执行两个阶段,降低调度耗时。模型下沉执行方式减少了CPU负载、通信抖动,并提升了E2E收益。模型下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。
🎯
关键要点
- 本文介绍了昇腾CANN模型下沉技术,优化模型执行性能。
- 模型下沉调度分为模型加载和模型执行两个阶段,降低调度耗时。
- Host调度需要Host和Device频繁交互,可能导致Device空闲状态。
- Device Bound模型和Host Bound模型的调度开销分析。
- 静态shape模型在编译时可确定所有算子的输入输出shape,优化Host调度性能。
- 模型下沉调度可以减少Device执行时序的空闲时间。
- 模型下沉执行方式减少了CPU负载和通信抖动,提升E2E收益。
- 下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。
- 以LLaMA-7B模型为例,模型下沉执行提升了吞吐量和性能。
➡️