CUDA中通过调整线程块与结果矩阵的映射关系,实现一对多的映射,优化矩阵相乘的stride技巧,从而减少线程块数量,提高计算效率。最佳stride值需通过实验确定。
完成下面两步后,将自动完成登录并继续当前操作。