小红花·文摘

拆解CANN：当华为决定打开算力的「黑盒」

机器之心 ·

算子是AI模型计算的核心，其优化直接影响执行效率和推理速度。昇腾通过CANN平台推动算子创新，降低开发门槛，促进AI技术发展，欢迎开发者参与，共享技术与经验，助力中国AI产业从跟随到引领。

昇腾CANN算子共建仓CANN-Ops正式上线Gitee，首批算子已合入

华为云官方博客 ·

本文介绍了昇腾CANN小shape算子计算优化技术，通过将小shape算子保留在Host侧执行，减少调度开销带来的性能影响。优化后，模型执行性能显著提高。

深度解读昇腾CANN小shape算子计算优化技术，进一步减少调度开销

华为云官方博客 ·

本文介绍了昇腾CANN模型下沉技术，通过图模式的Host调度和模型下沉调度，优化模型执行性能。模型下沉调度分为模型加载和模型执行两个阶段，降低调度耗时。模型下沉执行方式减少了CPU负载、通信抖动，并提升了E2E收益。模型下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。

深度解读昇腾CANN模型下沉技术，提升模型调度性能

华为云官方博客 ·

华为云的昇腾CANN内存复用技术降低AI算法内存占用，提高性能。通过内存复用和Topo优化减少内存浪费。GE内存复用优化技术进一步提高复用率和降低耗时。GE进行Topo优化，降低内存占用。测试结果显示，GE内存复用技术显著降低网络内存占用。

深度解读昇腾CANN内存复用技术，降低网络内存占用

华为云官方博客 ·

华为昇腾CANN多流并行技术提高硬件资源利用率，通过多流并行算法将计算任务下发到不同引擎上并发执行，受网络拓扑结构、节点引擎类型和AI处理器能力等因素影响，适用于静态shape的离线推理场景和Pytorch框架的计算图模式。

深度解读昇腾CANN多流并行技术，提高硬件资源利用率

华为云官方博客 ·

本文介绍了华为昇腾CANN YOLOV8和YOLOV9的适配过程。首先需要获取YOLOV8的模型文件，并将其转化为.onnx模型。然后在Atlas 500 Pro服务器上进行模型转换。适配代码可以参考开源代码。最后进行编译运行，输出结果为检测到的物体和置信度。适配YOLOV9的过程与YOLOV8类似。

实例讲解昇腾 CANN YOLOV8 和 YOLOV9 适配

华为云官方博客 ·

华为云社区分享昇腾CANN 7.0技术，专注于大模型推理部署。CANN通过软硬件联合设计，优化昇腾AI处理器性能。新版支持量化压缩、分布式部署等，提升推理性能。引入KV Cache减少计算，量化技术降低内存占用，FlashAttention算子降低访存开销。Auto Batching调度提升算力利用率，支持Torch.Compile计算图提高编程效率。昇腾CANN将继续优化大模型加速技术，提升商业竞争力。

昇腾CANN 7.0 黑科技：大模型推理部署技术解密

华为云官方博客 ·

华为云社区文章介绍了昇腾CANN 7.0中DVPP硬件加速数据预处理功能，解决了AI模型训练中Host CPU预处理的性能瓶颈问题。DVPP能够执行图片解码、缩放、翻转等操作，与NN计算独立。通过简单代码修改，DVPP可接管torchvision预处理逻辑，显著提升数据处理速度，减少对CPU的依赖，提高整体训练效率。

昇腾CANN 7.0丨DVPP硬件加速训练数据预处理，友好解决Host CPU预处理瓶颈

华为云官方博客 ·

华为云社区分享了昇腾CANN 7.0版本的大模型训练性能优化方法，包括分布式切分、内存优化、算子优化、融合和加速库等技术手段，解决了大模型训练的核心问题。CANN还提供了完备的技术栈功能，支持各种并行策略部署，具有很好的扩展能力。

昇腾CANN 7.0 黑科技：大模型训练性能优化之道

华为云官方博客 ·

本文介绍了DVPP内存问题的典型案例及解决方法，包括使用错误的内存申请接口、内存大小不符合要求、内存被提前释放、读/写内存地址无效等问题。建议检查内存大小及地址，确认内存释放时序，避免内存被提前释放等问题。

CANN开发实践：4个DVPP内存问题的典型案例解读

华为云官方博客 ·

本文比较了基于Ascend CL模型推理时使用的OpenCV、AIPP和DVPP三种方式的特点，并以Resnet50的pytorch模型为例，说明了它们如何实现预处理。文章还介绍了AIPP计算减均值和乘系数的参数。

CANN训练：模型推理时数据预处理方法及归一化参数计算

华为云官方博客 ·

CANN算子开发流程包括环境准备、工程创建、定义原型定义、实现算子代码、编译运行等步骤，以及推理和训练场景下的算子调用执行，由算子原型定义、对应开源框架的算子适配插件、算子信息库和算子实现四部分组成。算子开发完成后，需要编译自定义算子工程，生成自定义算子安装包并进行自定义算子包的安装，将自定义算子部署到算子库，然后进行ST测试和网络测试，对算子进行运行验证。