深度解读昇腾CANN小shape算子计算优化技术,进一步减少调度开销
💡
原文中文,约1800字,阅读约需5分钟。
📝
内容提要
本文介绍了昇腾CANN小shape算子计算优化技术,通过将小shape算子保留在Host侧执行,减少调度开销带来的性能影响。优化后,模型执行性能显著提高。
🎯
关键要点
- 本文介绍了昇腾CANN小shape算子计算优化技术,旨在减少调度开销带来的性能影响。
- Host调度模式下,模型算子的执行单元分为Host CPU执行和Device执行两类。
- 在动态shape情况下,无法将整个模型下沉执行,只能采用Host调度模式。
- Host调度的任务包括shape推导、tiling、内存分配和launch等。
- 对于小shape算子,调度开销往往大于实际计算开销,因此需要优化。
- GE识别小shape算子并将其保留在Host侧执行,有效减少调度开销。
- 优化后,模型执行性能显著提高,E2E执行时间从3毫秒减少到约10微秒。
- 以LLaMA2大语言推理模型为例,优化后E2E耗时从1.062秒减少到1.009秒,吞吐提升5%。
➡️