本系列博客将展示如何在Nvidia Blackwell GPU上编写高性能矩阵乘法内核,力求达到或超越cuBLAS的性能。第一部分介绍矩阵乘法的重要性及其在大型语言模型中的应用,并用Mojo语言实现简单的矩阵乘法。后续部分将逐步优化内核性能,利用Blackwell的新硬件指令。
完成下面两步后,将自动完成登录并继续当前操作。