深度解读昇腾CANN小shape算子计算优化技术,进一步减少调度开销
原文中文,约1800字,阅读约需5分钟。
📝
内容提要
本文介绍了昇腾CANN小shape算子计算优化技术,通过将小shape算子保留在Host侧执行,减少调度开销带来的性能影响。优化后,模型执行性能显著提高。
🎯
关键要点
-
本文介绍了昇腾CANN小shape算子计算优化技术,旨在减少调度开销带来的性能影响。
-
Host调度模式下,模型算子的执行单元分为Host CPU执行和Device执行两类。
-
在动态shape情况下,无法将整个模型下沉执行,只能采用Host调度模式。
-
Host调度的任务包括shape推导、tiling、内存分配和launch等。
-
对于小shape算子,调度开销往往大于实际计算开销,因此需要优化。
-
GE识别小shape算子并将其保留在Host侧执行,有效减少调度开销。
-
优化后,模型执行性能显著提高,E2E执行时间从3毫秒减少到约10微秒。
-
以LLaMA2大语言推理模型为例,优化后E2E耗时从1.062秒减少到1.009秒,吞吐提升5%。
❓
延伸问答
昇腾CANN小shape算子计算优化技术的主要目标是什么?
主要目标是减少调度开销带来的性能影响。
在Host调度模式下,算子的执行单元是如何划分的?
算子的执行单元分为Host CPU执行和Device执行两类。
为什么小shape算子的调度开销需要优化?
因为小shape算子的调度开销往往大于实际计算开销。
优化后,模型的E2E执行时间有何变化?
E2E执行时间从3毫秒减少到约10微秒。
以LLaMA2模型为例,优化后的吞吐量提升了多少?
吞吐提升了5%。
GE是如何识别并优化小shape算子的?
GE识别小shape算子并将其保留在Host侧执行,以减少调度开销。
🏷️