小红花·文摘

Vizrt 和 Girraphic 助力 MMA 在 Netflix 上的直播首秀

实时互动网 ·

Tensor Core 是专用的矩阵计算单元，利用 MMA 指令实现高效的矩阵乘加运算。FP16 Tensor Core 的吞吐量可达 72.8 TFLOP/s，显著高于 FP32 的 16 TFLOP/s。使用 Tensor Core 时，数据传输速度常成为瓶颈，因此需要优化数据布局和访存策略。CUDA 的 wmma API 简化了 Tensor Core 的使用，而高性能库如 CUTLASS 则能更精细地控制数据布局。

【GPU 算子工程】Tensor Core 与 MMA：wmma、mma.sync 与数据布局

土法炼钢兴趣小组的博客 ·

NVIDIA的Tensor Core专为加速矩阵运算而设计，TN布局在GEMM问题中表现最佳，优化了内存访问和缓存利用率，从而显著提升性能。大多数NVIDIA GPU架构仅支持TN布局的MMA指令。

NVIDIA Tensor Core TN布局MMA指令

Lei Mao's Log Book ·

NVIDIA GPU的峰值AI性能通常以TFLOPS或TOPS表示，但使用HPC软件重现这些性能并不总是有效。通过自定义微基准测试直接调用Tensor Core MMA指令，可以更可靠地测量性能。本文介绍了如何使用CUTLASS和CuTe测量NVIDIA Tensor Core MMA指令的峰值性能，并提供选择合适指令的参考。

基准测试NVIDIA Tensor Core MMA指令的峰值性能

Lei Mao's Log Book ·

MMA（矩阵乘法和累加）是GEMM的核心操作。CuTe提供API以配置MMA原子和瓦片，支持更大规模的问题解决。本文讨论了CuTe的瓦片MMA配置、布局及API示例，展示了如何优化性能，通过静态共享内存和线程划分来实现。

CuTe 瓦片 MMA

Lei Mao's Log Book ·

近年来，文本到图像（T2I）模型取得了显著进展并广泛应用。然而，这一进展也带来了滥用的潜在风险。研究人员引入了MMA-Diffusion框架，该框架能够绕过当前的防御措施，揭示现有防御机制的弱点。该框架利用文本和视觉模式来绕过提示过滤器和事后安全检查器等保护措施。

MMA-Diffusion：多模态对抗扩散模型

BriefGPT - AI 论文速递 ·

MAMBA是一种基于深度学习的平台，可以处理多种成像模态的3D组织图像并预测患者结果。该框架使用3D基于块的方法，在预测方面表现出比传统的基于单层切片的预测方法更好的性能。MAMBA为临床决策支持提供了一种通用有效的3D弱监督学习框架，可以帮助揭示新的3D形态生物标志物以进行预后和治疗反应的研究。

MMA-Net：自动柯布角度测量的多形态感知网络

BriefGPT - AI 论文速递 ·