Lei Mao's Log Book ·

CUDA 矩阵乘法优化

💡 原文英文，约9000词，阅读约需33分钟。

📝

内容提要

本文讨论了在NVIDIA GPU上使用CUDA实现通用矩阵乘法（GEMM）操作的不同方法，包括非连贯和连贯内存访问的朴素实现，以及使用2D块瓦片、1D和2D线程瓦片和矢量化内存访问的优化实现。评估了每种实现的性能，最终在NVIDIA GeForce RTX 3090 GPU上实现了13.02 TFLOPS的性能。此外，还介绍了使用2D块瓦片、2D线程瓦片、2D线程瓦片和矢量化内存访问的实现，以及使用2D块瓦片、2D线程瓦片、张量核心和矢量化内存访问的实现。总结了优化技术的性能和局限性，并提供了源代码的GitHub链接。

🎯

关键要点

本文讨论了在NVIDIA GPU上使用CUDA实现通用矩阵乘法（GEMM）操作的不同方法。
GEMM操作计算D = AB + C，是线性代数中的基本操作，广泛应用于科学计算和机器学习。
介绍了朴素实现，包括非连贯和连贯内存访问的实现，性能评估显示前者性能较差。
使用2D块瓦片和共享内存缓存输入矩阵以提高性能，最终实现了2.66 TFLOPS的性能。
进一步优化了实现，通过1D和2D线程瓦片减少共享内存带宽问题，性能提升至8.91 TFLOPS。
最终实现了2D块瓦片、2D线程瓦片和矢量化内存访问的结合，性能达到了13.02 TFLOPS。
总结了各种优化技术的性能和局限性，并提供了源代码的GitHub链接。

🏷️

继续阅读

苹果公布MacBook Neo最大电池循环次数与MacBook其他机型相同都是1,000次
苹果公布 MacBook Neo 的电池循环次数为 1,000 次，达到后电池储电能力会下降，可能影响性能。用户可通过系统信息查看循环次数。
一口气开 60 个应用根本不卡？MacBook Neo 真的很能打！
苹果的MacBook Neo引发热议，支持者认为其性价比高，适合学生和轻度办公；反对者则批评配置和性能不足。外观设计活泼，做工优秀，但屏幕和键盘有所减配。...
安德鲁·邓斯坦：验证您的JSON数据结构
该扩展直接操作PostgreSQL的C内部表示，避免了转换开销。在json数据测试中，性能提升2-3倍，表明优势不仅在于数据格式。正则表达式测试中，缓存已...
腾讯这是在梭哈龙虾？马化腾称产品矩阵包括自研虾/本地虾/云端虾/企业虾等等
腾讯在人工智能领域感到压力，马化腾提到多个自研产品。与阿里、字节相比，腾讯在AI模型和应用上处于劣势。当前，腾讯希望通过OpenClaw等新产品实现赶超，...
关于Unity China偷偷更换了LTS的安装包的这档事
文章讨论了Unity Hub在下载2021.3.16f1版本时自动更改为2021.3.16f1c1的问题，导致安装其他组件时出现卡顿，用户对此表示不满。
打破 70 年历史空白，比亚迪计划进军 F1 赛事
比亚迪正在评估进军F1和WEC等顶级赛车赛事的可行性，以提升品牌形象。尽管面临高成本和技术挑战，F1的全球曝光率为比亚迪提供了重要机会。中国车企在国际赛车...

CUDA 矩阵乘法优化

内容提要

关键要点

标签

继续阅读