小红花·文摘

Tensor Core 是专用的矩阵计算单元，利用 MMA 指令实现高效的矩阵乘加运算。FP16 Tensor Core 的吞吐量可达 72.8 TFLOP/s，显著高于 FP32 的 16 TFLOP/s。使用 Tensor Core 时，数据传输速度常成为瓶颈，因此需要优化数据布局和访存策略。CUDA 的 wmma API 简化了 Tensor Core 的使用，而高性能库如 CUTLASS 则能更精细地控制数据布局。

【GPU 算子工程】Tensor Core 与 MMA：wmma、mma.sync 与数据布局

土法炼钢兴趣小组的博客 ·

揭穿8个数据布局神话：为何液态聚类优于分区

Databricks ·

大规模预测优化：创新的一年与未来展望

Databricks ·

这篇文章探讨了SIMD编程的设计模式，强调数据布局的重要性，提出SoA（结构数组）相较于AoS（数组结构）的优势。介绍了无分支条件赋值的mask + blend方法，以及pshufb指令在字节查表和前缀和实现中的应用。最后，讨论了AVX-512的新特性和跨平台的SIMD策略，建议使用Google Highway库进行跨平台开发。