华为云官方博客 ·

深度解读昇腾CANN模型下沉技术，提升模型调度性能

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

本文介绍了昇腾CANN模型下沉技术，通过图模式的Host调度和模型下沉调度，优化模型执行性能。模型下沉调度分为模型加载和模型执行两个阶段，降低调度耗时。模型下沉执行方式减少了CPU负载、通信抖动，并提升了E2E收益。模型下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。

🎯

关键要点

本文介绍了昇腾CANN模型下沉技术，优化模型执行性能。
模型下沉调度分为模型加载和模型执行两个阶段，降低调度耗时。
Host调度需要Host和Device频繁交互，可能导致Device空闲状态。
Device Bound模型和Host Bound模型的调度开销分析。
静态shape模型在编译时可确定所有算子的输入输出shape，优化Host调度性能。
模型下沉调度可以减少Device执行时序的空闲时间。
模型下沉执行方式减少了CPU负载和通信抖动，提升E2E收益。
下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。
以LLaMA-7B模型为例，模型下沉执行提升了吞吐量和性能。

❓

延伸问答

昇腾CANN模型下沉技术的主要目的是什么？

主要目的是优化模型执行性能，降低调度耗时。

模型下沉调度分为哪两个阶段？

模型加载和模型执行两个阶段。

什么是Host Bound模型？

Host Bound模型是指Device执行Task的速度比Host下发Task的速度快，导致Device处于空闲状态。

静态shape模型的特点是什么？

静态shape模型的输入tensor shape是固定不变的，所有算子的输入输出shape在编译时可确定。

模型下沉执行的优势有哪些？

减少CPU负载、减少通信抖动、提升E2E收益。

下沉头开销包括哪些部分？

包括Tensor转换、地址刷新、异步拷贝和模型执行任务。

🏷️

标签

E2E收益 cann 图模式昇腾CANN模型下沉技术模型加载模型执行

➡️

继续阅读

基于超1万肿瘤样本训练，哈佛医学院等提出泛癌症基础模型COMPASS，平均性能优于22种现有方法
COMPASS 首次将这一架构引入癌症转录组分析领域，通过利用免疫相关基因集，并建立：基因（gene）→ 基因集（gene set）→ 概念（concep...
视频问诊的技术原理：从采集到呈现，一条链路怎么跑通的
视频问诊背后的技术是怎么运作的？不是代码层面，而是从”患者端摄像头前的画面”到”医生端屏幕上看到的画面”，这条数据链路到底走了哪些步...
关键时刻还是靠开源模型：HuggingFace遭黑客攻击某模型拒绝审计最后靠GLM-5.2
#人工智能关键时刻还是得靠开源模型：HuggingFace 遭到黑客攻击，想要使用 Claude 进行取证分析时始终被拒绝，最终只能本地部署开源的 GL...
实时音视频(RTC) 延迟标准如何重塑远程医疗平台性能
远程医疗运行在一个速度几乎影响每一个就诊环节的行业里，加入在线问诊时你期望医生的回应即时到达，查看实时监护数据时同样容不得迟滞，哪怕短暂的卡顿也会迅速瓦解...
【Rust日报】2026-07-22 Wasmtime 47 默认启用 Wasm GC 与异常支持
Wasmtime 47 默认启用 Wasm GC 与异常支持：高阶语言进军 WebAssembly 又少了一层自带运行时包袱 Bytecode Allia...
地平线2026上半年净利润扭亏与经调整亏损扩大并存
【TechWeb】7月22日消息，地平线（Horizon Robotics，股份代号：9660）发布公告，披露截至2026年6月30日止六个月未经审计的财...