华为云官方博客 ·

深度解读昇腾CANN模型下沉技术，提升模型调度性能

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

本文介绍了昇腾CANN模型下沉技术，通过图模式的Host调度和模型下沉调度，优化模型执行性能。模型下沉调度分为模型加载和模型执行两个阶段，降低调度耗时。模型下沉执行方式减少了CPU负载、通信抖动，并提升了E2E收益。模型下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。

🎯

关键要点

本文介绍了昇腾CANN模型下沉技术，优化模型执行性能。
模型下沉调度分为模型加载和模型执行两个阶段，降低调度耗时。
Host调度需要Host和Device频繁交互，可能导致Device空闲状态。
Device Bound模型和Host Bound模型的调度开销分析。
静态shape模型在编译时可确定所有算子的输入输出shape，优化Host调度性能。
模型下沉调度可以减少Device执行时序的空闲时间。
模型下沉执行方式减少了CPU负载和通信抖动，提升E2E收益。
下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。
以LLaMA-7B模型为例，模型下沉执行提升了吞吐量和性能。

🏷️

继续阅读

Broadpeak 将在 2026 年 NAB 展会上展示直播性能、先进的广告功能和实时反盗版功能
流媒体服务商Broadpeak将在2026年NAB展会上展示多视图直播、动态广告插入和基于QUIC的媒体传输技术，旨在提升直播体验、增加广告收入，并加强内...
派早报：达摩院发布脂肪肝筛查 AI 模型 MAOSS 等
阿里巴巴达摩院与多家医院合作研发的脂肪肝筛查AI模型MAOSS，能够通过CT影像和血清指标精准筛查肝脂肪分期，将高风险患者的检出率提升至52.4%。该研究...
IIoT PostgreSQL性能范围
索引可以有效缓解IIoT查询问题。通过在tag_id和时间上设置索引，深层查询的时间可缩短至Log(t*r)。尽管数据库增大时查询速度仍会下降，但增加的时...
Google Stax：根据您自己的标准测试模型和提示
Google的Stax工具允许个人创建和评估机器学习模型，通常与TensorFlow或Vertex AI协作，专注于模型性能评估。
大多数杰出AI项目壮观失败的技术飞跃
该文章介绍了一款AI性能优化工具包，提供混合精度、层融合和批量大小优化等多种方法，旨在提升模型推理和训练性能，降低内存使用和成本。
比亚迪发布「5 分钟」闪充技术，最受伤的不是蔚来
比亚迪推出的第二代刀片电池和闪充技术引发了蔚来的担忧。比亚迪的闪充技术在极端环境下也能快速充电且安全性高。蔚来CEO承认短期内不会受到影响，但长远来看，闪...

深度解读昇腾CANN模型下沉技术，提升模型调度性能

内容提要

关键要点

标签

继续阅读