Modular Blog ·

模块化：Blackwell上的矩阵乘法：第二部分 - 利用硬件特性优化矩阵乘法

💡 原文英文，约6200词，阅读约需23分钟。

📝

内容提要

本文探讨了Nvidia Blackwell GPU架构下的矩阵乘法优化，采用共享内存和循环分块技术，性能提升超过50倍。通过利用Tensor Memory和新指令集tcgen05.mma，进一步提高计算效率。尽管取得显著进展，但仍未达到cuBLAS的性能水平，后续将继续优化。

🎯

关键要点

本文探讨了Nvidia Blackwell GPU架构下的矩阵乘法优化，采用共享内存和循环分块技术，性能提升超过50倍。
初始内核的性能仅为cuBLAS的0.3%，后续优化目标是显著提高性能。
通过使用共享内存和循环分块技术，减少全局内存访问，提高计算效率。
引入Tensor Memory和新指令集tcgen05.mma，进一步提升计算性能。
尽管取得显著进展，但仍未达到cuBLAS的性能水平，后续将继续优化。
使用共享内存作为缓存，通过循环分块技术减少冗余加载。
优化后的内核实现了155.0 TFLOPS，较初始内核提升了28倍，但仍仅为cuBLAS性能的8.7%。
引入swizzling技术解决共享内存中的银行冲突问题，进一步提高性能。
最终优化后的内核实现了288.3 TFLOPS，接近cuBLAS性能的16.4%。
后续将继续优化调度和执行算法，以实现更高的性能。

❓

延伸问答

Nvidia Blackwell GPU架构如何优化矩阵乘法？

通过采用共享内存和循环分块技术，性能提升超过50倍，并引入Tensor Memory和新指令集tcgen05.mma进一步提高计算效率。

优化后的内核性能如何与cuBLAS相比？

优化后的内核实现了288.3 TFLOPS，仍仅为cuBLAS性能的16.4%。

什么是共享内存和循环分块技术？

共享内存用于缓存数据，循环分块技术通过将矩阵分成小块来减少全局内存访问，提高计算效率。

如何解决共享内存中的银行冲突问题？

通过引入swizzling技术，改变数据在共享内存中的布局，避免多个线程访问同一银行。

Tensor Memory的作用是什么？

Tensor Memory是专门用于存储tcgen05 MMA指令输入或输出的256K片上内存，解决了寄存器空间不足的问题。

后续优化的目标是什么？

后续将继续优化调度和执行算法，以实现更高的性能，接近cuBLAS的水平。

🏷️

继续阅读

NVIDIA与微软合作推出统一的AI部署解决方案，涵盖Windows设备、云端及本地环境
NVIDIA与微软合作推出统一的AI部署解决方案，支持Windows设备、Azure云和本地环境。开发者可通过RTX Spark和DGX Station在...
以开放为设计理念：NVIDIA与DigitalOcean如何构建始终在线的自主时代技术栈
生成式人工智能的增长不仅依赖于专有模型，开源AI也在重塑开发者生态。NVIDIA与DigitalOcean合作开发开放模型，如NVIDIA Nemotro...
微软推出了高通无法实现的迷你Surface开发盒
微软推出了新的Surface RTX Spark开发盒，专为本地AI开发设计，搭载Nvidia的Arm架构RTX Spark芯片，具有128GB统一内存，...
谷歌搜索提升你的二手和复古购物的五种方式
2026年复古潮流再度兴起，用户对“复古”和“如何淘货”的搜索兴趣达到新高。借助Google工具，用户可以通过AI规划二手购物，使用Google Lens...
把文章发布到掘金，做成一个可复用的 juejin-skill
juejin-skill是一款自动化工具，旨在简化在掘金平台上发布文章的流程。它通过命令行界面实现登录、分类查询、标签推荐和图片上传等功能，支持将本地Ma...
从看懂世界到做对动作，卧安机器人OneModel 1.7用一条「隐式通路」打通了具身智能的关键断层
卧安机器人发布了OneModel 1.7 FrontoStria-RL，该模型通过隐式传导机制将世界模型与动作执行连接，提升了家庭机器人在真实环境中的操作...