算子是AI模型计算的核心,其优化直接影响执行效率和推理速度。昇腾通过CANN平台推动算子创新,降低开发门槛,促进AI技术发展,欢迎开发者参与,共享技术与经验,助力中国AI产业从跟随到引领。
本文介绍了昇腾CANN小shape算子计算优化技术,通过将小shape算子保留在Host侧执行,减少调度开销带来的性能影响。优化后,模型执行性能显著提高。
本文介绍了昇腾CANN模型下沉技术,通过图模式的Host调度和模型下沉调度,优化模型执行性能。模型下沉调度分为模型加载和模型执行两个阶段,降低调度耗时。模型下沉执行方式减少了CPU负载、通信抖动,并提升了E2E收益。模型下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。
华为云的昇腾CANN内存复用技术降低AI算法内存占用,提高性能。通过内存复用和Topo优化减少内存浪费。GE内存复用优化技术进一步提高复用率和降低耗时。GE进行Topo优化,降低内存占用。测试结果显示,GE内存复用技术显著降低网络内存占用。
华为昇腾CANN多流并行技术提高硬件资源利用率,通过多流并行算法将计算任务下发到不同引擎上并发执行,受网络拓扑结构、节点引擎类型和AI处理器能力等因素影响,适用于静态shape的离线推理场景和Pytorch框架的计算图模式。
本文介绍了华为昇腾CANN YOLOV8和YOLOV9的适配过程。首先需要获取YOLOV8的模型文件,并将其转化为.onnx模型。然后在Atlas 500 Pro服务器上进行模型转换。适配代码可以参考开源代码。最后进行编译运行,输出结果为检测到的物体和置信度。适配YOLOV9的过程与YOLOV8类似。
华为云社区分享昇腾CANN 7.0技术,专注于大模型推理部署。CANN通过软硬件联合设计,优化昇腾AI处理器性能。新版支持量化压缩、分布式部署等,提升推理性能。引入KV Cache减少计算,量化技术降低内存占用,FlashAttention算子降低访存开销。Auto Batching调度提升算力利用率,支持Torch.Compile计算图提高编程效率。昇腾CANN将继续优化大模型加速技术,提升商业竞争力。
华为云社区文章介绍了昇腾CANN 7.0中DVPP硬件加速数据预处理功能,解决了AI模型训练中Host CPU预处理的性能瓶颈问题。DVPP能够执行图片解码、缩放、翻转等操作,与NN计算独立。通过简单代码修改,DVPP可接管torchvision预处理逻辑,显著提升数据处理速度,减少对CPU的依赖,提高整体训练效率。
华为云社区分享了昇腾CANN 7.0版本的大模型训练性能优化方法,包括分布式切分、内存优化、算子优化、融合和加速库等技术手段,解决了大模型训练的核心问题。CANN还提供了完备的技术栈功能,支持各种并行策略部署,具有很好的扩展能力。
本文介绍了DVPP内存问题的典型案例及解决方法,包括使用错误的内存申请接口、内存大小不符合要求、内存被提前释放、读/写内存地址无效等问题。建议检查内存大小及地址,确认内存释放时序,避免内存被提前释放等问题。
本文比较了基于Ascend CL模型推理时使用的OpenCV、AIPP和DVPP三种方式的特点,并以Resnet50的pytorch模型为例,说明了它们如何实现预处理。文章还介绍了AIPP计算减均值和乘系数的参数。
CANN算子开发流程包括环境准备、工程创建、定义原型定义、实现算子代码、编译运行等步骤,以及推理和训练场景下的算子调用执行,由算子原型定义、对应开源框架的算子适配插件、算子信息库和算子实现四部分组成。算子开发完成后,需要编译自定义算子工程,生成自定义算子安装包并进行自定义算子包的安装,将自定义算子部署到算子库,然后进行ST测试和网络测试,对算子进行运行验证。
昇腾AI提供了全栈技术和产品,构筑人工智能的算力基座,赋能上层应用
在华为全联接大会2022期间,华为正式官宣昇腾AI异构计算架构CANN 6.0版本将在年底正式发布。
基于昇腾AI异构计算架构CANN(Compute Architecture for Neural Networks)的简易版辅助驾驶AI应用,具备车辆检测、车距计算等基本功能,作为辅助驾驶入门级项目再合适不过。
快,着实有点快。 现在,经典模型BERT只需2.69分钟、ResNet只需16秒。 啪的一下,就能完成训练!
了解通用目标检测与识别一站式方案的功能与特性,还有实现流程,以及可定制点。
本期带您了解如何使用msopst工具。
介绍如何用昇腾AI处理器上的DVPP单元进行,图像的等比例缩放,保证图像不变形。
完成下面两步后,将自动完成登录并继续当前操作。