深度解读昇腾CANN小shape算子计算优化技术,进一步减少调度开销

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

本文介绍了昇腾CANN小shape算子计算优化技术,通过将小shape算子保留在Host侧执行,减少调度开销带来的性能影响。优化后,模型执行性能显著提高。

🎯

关键要点

  • 本文介绍了昇腾CANN小shape算子计算优化技术,旨在减少调度开销带来的性能影响。

  • Host调度模式下,模型算子的执行单元分为Host CPU执行和Device执行两类。

  • 在动态shape情况下,无法将整个模型下沉执行,只能采用Host调度模式。

  • Host调度的任务包括shape推导、tiling、内存分配和launch等。

  • 对于小shape算子,调度开销往往大于实际计算开销,因此需要优化。

  • GE识别小shape算子并将其保留在Host侧执行,有效减少调度开销。

  • 优化后,模型执行性能显著提高,E2E执行时间从3毫秒减少到约10微秒。

  • 以LLaMA2大语言推理模型为例,优化后E2E耗时从1.062秒减少到1.009秒,吞吐提升5%。

延伸问答

昇腾CANN小shape算子计算优化技术的主要目标是什么?

主要目标是减少调度开销带来的性能影响。

在Host调度模式下,算子的执行单元是如何划分的?

算子的执行单元分为Host CPU执行和Device执行两类。

为什么小shape算子的调度开销需要优化?

因为小shape算子的调度开销往往大于实际计算开销。

优化后,模型的E2E执行时间有何变化?

E2E执行时间从3毫秒减少到约10微秒。

以LLaMA2模型为例,优化后的吞吐量提升了多少?

吞吐提升了5%。

GE是如何识别并优化小shape算子的?

GE识别小shape算子并将其保留在Host侧执行,以减少调度开销。

🏷️

标签

➡️

继续阅读