Modular Blog ·

模块化：在Blackwell上的矩阵乘法：第4部分 - 打破SOTA

💡 原文英文，约2500词，阅读约需9分钟。

📝

内容提要

本文介绍了在NVIDIA Blackwell上优化矩阵乘法内核的过程，重点在于集群启动控制（CLC）优化。通过使用持久内核和调度器，消除了共享内存和障碍初始化的开销，性能提升15%，达到1772 TFLOPs，超越当前的SOTA。此外，探讨了通过块交换提高L2缓存命中率，从而实现更高效的调度和性能。

🎯

关键要点

本文介绍了在NVIDIA Blackwell上优化矩阵乘法内核的过程，重点在于集群启动控制（CLC）优化。
通过使用持久内核和调度器，消除了共享内存和障碍初始化的开销，性能提升15%，达到1772 TFLOPs，超越当前的SOTA。
持久内核允许内核作者控制块瓷砖坐标的调度，从而提高性能。
Blackwell架构引入了硬件调度器，通过优雅的生产者-消费者模型来协调工作。
通过流水线化调度，减少了CLC调度开销，提高了性能。
将TMEM视为循环缓冲区，解决了空闲波浪和顺序执行的问题。
使用线程块交换技术提高L2缓存命中率，进一步优化性能。
在生产中，优化参数选择对于不同形状的矩阵乘法至关重要。
Mojo的自动调优框架能够选择最佳参数，超越当前的SOTA实现。
未来GPU将变得更强大，编程模式也需要更加复杂，以实现峰值性能。

🏷️

继续阅读

如果你三年前购买了笔记本电脑，苹果的新M5 Max感觉像是一次巨大的升级
M5 Max在性能上显著优于M2 Max，单核性能提升55%，多核性能几乎翻倍，GPU渲染性能提升64%，在Premiere Pro中4K导出时间减少30%。
苹果iPad Air M4评测：速度略有提升
M4 Air在CPU性能上比M3 Air快20-25%，GPU性能快10-15%。尽管性能提升明显，但实际使用中差异不大，仅在Spotlight搜索中M4...
CLion 2026.1 EAP中的DAP调试器的TCP连接、数值格式的不同以及更多内容
Natvis性能显著提升，使用MSVC工具链的LLDB自定义调试器，调试速度提高超过80倍，内存使用减少2.5倍，特别适合大型项目开发者，CLion和Rider用户受益。
微调稀疏嵌入以优化电子商务搜索 | 第1部分：为何稀疏嵌入优于BM25
Modal提供无服务器的A100 GPU，消除闲置硬件和队列管理。Sentence Transformers v5引入SparseEncoder类，简化S...
针对电子商务搜索的稀疏嵌入微调 | 第2部分：在Modal上训练SPLADE
模型检查点保存在持久卷的/checkpoints/splade_standard/final。我们已在HuggingFace发布了训练好的模型splade...
电子商务搜索稀疏嵌入的微调 | 第三部分：评估与困难负样本
这是关于电子商务搜索稀疏嵌入微调系列文章的第三部分。在第二部分中，我们训练了SPLADE模型，现在将对该模型进行评估并进行困难负样本挖掘。

模块化：在Blackwell上的矩阵乘法：第4部分 - 打破SOTA

内容提要

关键要点

标签

继续阅读