小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
拆解CANN:当华为决定打开算力的「黑盒」

AI Shortlist 是关于人工智能的主题,探讨了其技术、应用和发展趋势,强调了AI在各领域的潜力和未来的重要性。

拆解CANN:当华为决定打开算力的「黑盒」

机器之心
机器之心 · 2025-12-19T07:09:13Z

算子是AI模型计算的核心,其优化直接影响执行效率和推理速度。昇腾通过CANN平台推动算子创新,降低开发门槛,促进AI技术发展,欢迎开发者参与,共享技术与经验,助力中国AI产业从跟随到引领。

昇腾CANN算子共建仓CANN-Ops正式上线Gitee,首批算子已合入

华为云官方博客
华为云官方博客 · 2025-04-03T03:21:19Z

本文介绍了昇腾CANN小shape算子计算优化技术,通过将小shape算子保留在Host侧执行,减少调度开销带来的性能影响。优化后,模型执行性能显著提高。

深度解读昇腾CANN小shape算子计算优化技术,进一步减少调度开销

华为云官方博客
华为云官方博客 · 2024-08-07T02:20:29Z

本文介绍了昇腾CANN模型下沉技术,通过图模式的Host调度和模型下沉调度,优化模型执行性能。模型下沉调度分为模型加载和模型执行两个阶段,降低调度耗时。模型下沉执行方式减少了CPU负载、通信抖动,并提升了E2E收益。模型下沉头开销包括Tensor转换、地址刷新、异步拷贝和模型执行任务。

深度解读昇腾CANN模型下沉技术,提升模型调度性能

华为云官方博客
华为云官方博客 · 2024-07-15T06:27:00Z

华为云的昇腾CANN内存复用技术降低AI算法内存占用,提高性能。通过内存复用和Topo优化减少内存浪费。GE内存复用优化技术进一步提高复用率和降低耗时。GE进行Topo优化,降低内存占用。测试结果显示,GE内存复用技术显著降低网络内存占用。

深度解读昇腾CANN内存复用技术,降低网络内存占用

华为云官方博客
华为云官方博客 · 2024-07-09T03:00:43Z

华为昇腾CANN多流并行技术提高硬件资源利用率,通过多流并行算法将计算任务下发到不同引擎上并发执行,受网络拓扑结构、节点引擎类型和AI处理器能力等因素影响,适用于静态shape的离线推理场景和Pytorch框架的计算图模式。

深度解读昇腾CANN多流并行技术,提高硬件资源利用率

华为云官方博客
华为云官方博客 · 2024-07-02T01:02:47Z

本文介绍了华为昇腾CANN YOLOV8和YOLOV9的适配过程。首先需要获取YOLOV8的模型文件,并将其转化为.onnx模型。然后在Atlas 500 Pro服务器上进行模型转换。适配代码可以参考开源代码。最后进行编译运行,输出结果为检测到的物体和置信度。适配YOLOV9的过程与YOLOV8类似。

实例讲解昇腾 CANN YOLOV8 和 YOLOV9 适配

华为云官方博客
华为云官方博客 · 2024-04-11T06:51:57Z

华为云社区分享昇腾CANN 7.0技术,专注于大模型推理部署。CANN通过软硬件联合设计,优化昇腾AI处理器性能。新版支持量化压缩、分布式部署等,提升推理性能。引入KV Cache减少计算,量化技术降低内存占用,FlashAttention算子降低访存开销。Auto Batching调度提升算力利用率,支持Torch.Compile计算图提高编程效率。昇腾CANN将继续优化大模型加速技术,提升商业竞争力。

昇腾CANN 7.0 黑科技:大模型推理部署技术解密

华为云官方博客
华为云官方博客 · 2023-11-10T09:33:48Z

华为云社区文章介绍了昇腾CANN 7.0中DVPP硬件加速数据预处理功能,解决了AI模型训练中Host CPU预处理的性能瓶颈问题。DVPP能够执行图片解码、缩放、翻转等操作,与NN计算独立。通过简单代码修改,DVPP可接管torchvision预处理逻辑,显著提升数据处理速度,减少对CPU的依赖,提高整体训练效率。

昇腾CANN 7.0丨DVPP硬件加速训练数据预处理,友好解决Host CPU预处理瓶颈

华为云官方博客
华为云官方博客 · 2023-11-09T09:41:53Z

华为云社区分享了昇腾CANN 7.0版本的大模型训练性能优化方法,包括分布式切分、内存优化、算子优化、融合和加速库等技术手段,解决了大模型训练的核心问题。CANN还提供了完备的技术栈功能,支持各种并行策略部署,具有很好的扩展能力。

昇腾CANN 7.0 黑科技:大模型训练性能优化之道

华为云官方博客
华为云官方博客 · 2023-10-23T10:30:41Z

本文介绍了基于CANN的目标检测最佳实践设计,提升开发效率和降低门槛。通过使能DVPP硬件编解码能力、增加数据并行和多线程并发等方式提升性能。CANN将继续提升应用开发的易用性。

AI推理实践丨多路极致性能目标检测最佳实践设计解密

华为云官方博客
华为云官方博客 · 2023-07-07T02:38:40Z

本文介绍了DVPP内存问题的典型案例及解决方法,包括使用错误的内存申请接口、内存大小不符合要求、内存被提前释放、读/写内存地址无效等问题。建议检查内存大小及地址,确认内存释放时序,避免内存被提前释放等问题。

CANN开发实践:4个DVPP内存问题的典型案例解读

华为云官方博客
华为云官方博客 · 2023-04-19T07:34:56Z

本文比较了基于Ascend CL模型推理时使用的OpenCV、AIPP和DVPP三种方式的特点,并以Resnet50的pytorch模型为例,说明了它们如何实现预处理。文章还介绍了AIPP计算减均值和乘系数的参数。

CANN训练:模型推理时数据预处理方法及归一化参数计算

华为云官方博客
华为云官方博客 · 2023-04-03T07:28:45Z

CANN推出的调优引擎AOE,通过算子调优、子图调优和梯度调优,可以提升AI硬件的性能,提高Cache命中率,智能梯度切分算法,自动搜索出最优梯度参数切分方式,推理网络性能提升30%以上,训练网络提升20%以上,加速AI应用场景落地,共建智慧世界。

网络性能总不好?网络调优专家AOE帮你来“看看”

华为云官方博客
华为云官方博客 · 2023-03-01T03:12:12Z

CANN算子开发流程包括环境准备、工程创建、定义原型定义、实现算子代码、编译运行等步骤,以及推理和训练场景下的算子调用执行,由算子原型定义、对应开源框架的算子适配插件、算子信息库和算子实现四部分组成。算子开发完成后,需要编译自定义算子工程,生成自定义算子安装包并进行自定义算子包的安装,将自定义算子部署到算子库,然后进行ST测试和网络测试,对算子进行运行验证。

理论+实践,揭秘昇腾CANN算子开发

华为云官方博客
华为云官方博客 · 2023-02-17T06:28:15Z

昇腾AI提供了全栈技术和产品,构筑人工智能的算力基座,赋能上层应用

昇腾CANN:为你开启机器人开发的Buff 加成

华为云官方博客
华为云官方博客 · 2022-12-28T03:04:40Z

在华为全联接大会2022期间,华为正式官宣昇腾AI异构计算架构CANN 6.0版本将在年底正式发布。

CANN 6.0来了,硬核技术抢先看

华为云官方博客
华为云官方博客 · 2022-11-15T06:38:12Z

基于昇腾AI异构计算架构CANN(Compute Architecture for Neural Networks)的简易版辅助驾驶AI应用,具备车辆检测、车距计算等基本功能,作为辅助驾驶入门级项目再合适不过。

盘它!基于CANN的辅助驾驶AI实战案例,轻松搞定车辆检测和车距计算!

华为云官方博客
华为云官方博客 · 2022-10-25T03:21:18Z

快,着实有点快。 现在,经典模型BERT只需2.69分钟、ResNet只需16秒。 啪的一下,就能完成训练!

2.69分钟完成BERT训练!新发CANN 5.0加持

华为云官方博客
华为云官方博客 · 2022-09-23T02:46:44Z

了解通用目标检测与识别一站式方案的功能与特性,还有实现流程,以及可定制点。

带你了解CANN的目标检测与识别一站式方案

华为云官方博客
华为云官方博客 · 2022-09-21T06:08:22Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码