华为云官方博客 ·

基于Ascend C的Matmul算子性能优化最佳实践

Q: 优化分核逻辑的具体收益是多少？

优化分核逻辑的实际收益约为75倍。

💡 原文中文，约7500字，阅读约需18分钟。

📝

内容提要

本文讲述了如何优化昇腾AI处理器上的Matmul算子性能。通过优化分核逻辑、基本块和数据搬运，提升矩阵乘法效率。方法包括增加并行计算核数、选择最佳参数、提高数据搬运效率等。优化后，执行时间显著减少，性能提升明显，适用于大规模数据场景。

🎯

关键要点

本文讨论了如何优化昇腾AI处理器上的Matmul算子性能。
矩阵乘法是深度学习中的基础操作，昇腾AI处理器专门针对AI加速。
优化手段包括优化分核逻辑、基本块和数据搬运。
优化分核逻辑通过开启更多Cube核实现并行计算。
优化基本块选择最优的baseM、baseN、baseK参数以提高计算效率。
开启大包搬运可以提升数据搬运效率，减少执行时间。
Profiling数据分析显示MTE2是主要性能瓶颈。
优化后，执行时间显著减少，性能提升明显，适用于大规模数据场景。
优化分核逻辑的实际收益约为75倍，优化基本块的收益约为3倍。
大包搬运的实际收益超过25%。
优化方法适用于输入数据shape足够大时，才能充分发挥性能。

🔎

延伸解读

优化分核逻辑的重要性

在昇腾AI处理器上，优化分核逻辑可以显著提升计算并行度。通过开启更多的Cube核，性能提升可达75倍。这一优化尤其适用于大规模数据场景，能够有效减少执行时间，提升整体计算效率。开发者在进行优化时，应确保输入数据的shape足够大，以充分发挥多核的优势。

基本块选择的影响

选择合适的基本块参数对矩阵乘法的性能至关重要。优化后的基本块设置可以使计算访存比最大化，从而提高计算效率。具体而言，使用[128, 256, 64]的基本块方案相比于[64, 64, 256]，在数据搬运和计算效率上都有显著提升。开发者应根据具体的输入数据特征，灵活调整基本块参数。

大包搬运的优势

开启大包搬运功能后，数据搬运效率显著提高，带宽利用率提升超过36%。这一优化手段适用于需要频繁数据搬运的场景，能够有效减少MTE2的耗时。开发者在实现时，应注意数据的对齐和指令条数的变化，以确保性能的最大化。

❓

延伸问答

如何优化昇腾AI处理器上的Matmul算子性能？

可以通过优化分核逻辑、基本块和数据搬运来提升性能。

优化分核逻辑的具体收益是多少？

优化分核逻辑的实际收益约为75倍。

优化基本块选择的原则是什么？

选择计算访存比最大的基本块，以最小的数据量实现最大的计算量。

开启大包搬运对性能的影响如何？

开启大包搬运后，性能提升超过25%，带宽利用率提高36%以上。

在什么情况下可以充分发挥优化的性能？

当输入数据的shape足够大时，才能充分发挥优化的性能。

MTE2在性能瓶颈分析中扮演什么角色？

MTE2反映了数据搬入情况，是主要的性能瓶颈之一。

🏷️