小红花·文摘

本文介绍了昇腾CANN模型下沉技术，通过图模式的Host调度和模型下沉调度，优化模型执行性能。模型下沉调度分为模型加载和模型执行两个阶段，降低调度耗时。模型下沉执行方式减少了CPU负载、通信抖动，并提升了E2E收益。模型下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。