华为云官方博客 ·

深度解读昇腾CANN小shape算子计算优化技术，进一步减少调度开销

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文介绍了昇腾CANN小shape算子计算优化技术，通过将小shape算子保留在Host侧执行，减少调度开销带来的性能影响。优化后，模型执行性能显著提高。

🎯

关键要点

本文介绍了昇腾CANN小shape算子计算优化技术，旨在减少调度开销带来的性能影响。
Host调度模式下，模型算子的执行单元分为Host CPU执行和Device执行两类。
在动态shape情况下，无法将整个模型下沉执行，只能采用Host调度模式。
Host调度的任务包括shape推导、tiling、内存分配和launch等。
对于小shape算子，调度开销往往大于实际计算开销，因此需要优化。
GE识别小shape算子并将其保留在Host侧执行，有效减少调度开销。
优化后，模型执行性能显著提高，E2E执行时间从3毫秒减少到约10微秒。
以LLaMA2大语言推理模型为例，优化后E2E耗时从1.062秒减少到1.009秒，吞吐提升5%。

❓

延伸问答

昇腾CANN小shape算子计算优化技术的主要目标是什么？

主要目标是减少调度开销带来的性能影响。

在Host调度模式下，算子的执行单元是如何划分的？

算子的执行单元分为Host CPU执行和Device执行两类。

为什么小shape算子的调度开销需要优化？

因为小shape算子的调度开销往往大于实际计算开销。

优化后，模型的E2E执行时间有何变化？

E2E执行时间从3毫秒减少到约10微秒。

以LLaMA2模型为例，优化后的吞吐量提升了多少？

吞吐提升了5%。

GE是如何识别并优化小shape算子的？

GE识别小shape算子并将其保留在Host侧执行，以减少调度开销。

🏷️

标签

cann 小shape算子性能提升昇腾CANN 计算优化技术

➡️

继续阅读

视频问诊的技术原理：从采集到呈现，一条链路怎么跑通的
视频问诊背后的技术是怎么运作的？不是代码层面，而是从”患者端摄像头前的画面”到”医生端屏幕上看到的画面”，这条数据链路到底走了哪些步...
BaseRT：专为 Apple Silicon 优化，让 Mac 本地大模型快 6.4 倍
Apple Silicon 跑本地大模型，速度还能再提升多少？BaseRT 给出了一个答案：在 M5 Pro 上，它的提示词处理速度最高达到 llama....
Announcing the Public Preview of Discover and Domains, powered by Unity Catalog
Today, we're announcing the Public Preview of Domains and the Discover pa...
Android Studio Quail 2 Redesigns Agent Mode, Streamlines AI-Assisted Coding
The latest release of Android Studio, Quail 2, now stable, expands Gemini/AI ...
Peak Design’s modular Field Bracket has a finder tag built-in
I am a very clumsy man. So clumsy, that I have AirTags hanging off practicall...
Nearly every Kindle is steeply discounted at Best Buy
If you’ve been thinking about picking up a Kindle before school starts, or fo...