小红花·文摘

DeepSeek开源通用矩阵乘法库，300行代码加速V3、R1，R2被曝五月前问世

机器之心 ·

MMA（矩阵乘法和累加）是GEMM的核心操作。CuTe提供API以配置MMA原子和瓦片，支持更大规模的问题解决。本文讨论了CuTe的瓦片MMA配置、布局及API示例，展示了如何优化性能，通过静态共享内存和线程划分来实现。

CuTe 瓦片 MMA

Lei Mao's Log Book ·

Triton 是一种基于 Python 的编程语言和编译器，专为高效编写 DNN 计算内核而设计，能够在现代 GPU 上运行，支持分组 GEMM 内核，并通过静态调度实现高吞吐量。

【Triton 教程】分组 GEMM

HyperAI超神经 ·

cuBLAS GEMM API对输入输出矩阵的存储格式有严格要求。若矩阵为列主序格式，可直接使用；若为行主序格式，设置参数时易出错。本文讨论了矩阵转置与列主序存储的关系，以及在不同情况下如何使用cuBLAS GEMM API。

cuBLAS GEMM API在列主序和行主序矩阵中的使用

Lei Mao's Log Book ·

Apache TVM 是一个支持 CPU 和 GPU 的深度学习编译框架，提供抽象接口和优化算法调度以提升性能。教程展示了如何通过分块和向量化等技术优化矩阵乘法，显著提高计算速度。用户可通过简单代码实现高效性能，建议自行测试。

【TVM 教程】如何在 CPU 上优化 GEMM

HyperAI超神经 ·

OpenGeMM是一种新型开放源代码加速平台，旨在解决深度神经网络在资源受限边缘设备上的部署问题。该平台通过参数化的Chisel编码GeMM加速器、轻量级RISC-V处理器和紧耦合的多银行临时存储器，实现了高达99.34%的硬件利用率，吞吐量提升3.58至16.40倍，系统效率可达4.68 TOPS/W。

OpenGeMM: A High-Utilization GeMM Accelerator Generator with Lightweight RISC-V Control and Tight Memory Coupling

BriefGPT - AI 论文速递 ·

本研究解决了低精度应用中计算误差显著的问题，提出了一种低秩残差量化矩阵乘法（LRQMM）方法，通过残差补偿引入低秩近似。实验结果表明，LRQMM能将直接量化矩阵乘法的误差降低1到2个数量级，同时在处理大规模矩阵时，计算速度仅降低约20%。

在低比特GEMM残差计算中使用RSVD的方法

BriefGPT - AI 论文速递 ·

本论文研究了基于微环共振器的模拟光子结构，用于加速深度神经网络中的通用矩阵乘法，具有出色的吞吐量和能效。作者通过分析三种不同的调制顺序，发现它们对电路级的串扰噪声和光信号损失以及系统级的吞吐量和能量区域能够带来不同程度的影响。评估结果显示，SMWA组织在吞吐量、能效和面积能量效率方面的提升分别多达4.4倍、5倍和5.2倍。

基于微环的非相干光子 GEMM 加速器的比较分析

BriefGPT - AI 论文速递 ·

该文介绍了一种使用M2架构的机器学习模型，能够在序列长度和模型维度上进行扩展，从而实现更长的上下文和更好的性能。该模型在非因果伯特模型、ViT图像分类和因果GPT模型三个领域展现出良好的性能。

Monarch Mixer：一个简单的次线性 GEMM 架构

BriefGPT - AI 论文速递 ·