DeepGEMM 是一款开源的 FP8 GEMM 库,支持密集型和专家混合计算,在 Hopper GPU 上可实现超过 1350 TFLOPS 的性能。该库代码简洁,仅有 300 行,适合学习 FP8 矩阵乘法。DeepSeek 计划在 5 月前发布新一代 R2 模型,以提升代码生成能力。
MMA(矩阵乘法和累加)是GEMM的核心操作。CuTe提供API以配置MMA原子和瓦片,支持更大规模的问题解决。本文讨论了CuTe的瓦片MMA配置、布局及API示例,展示了如何优化性能,通过静态共享内存和线程划分来实现。
Triton 是一种基于 Python 的编程语言和编译器,专为高效编写 DNN 计算内核而设计,能够在现代 GPU 上运行,支持分组 GEMM 内核,并通过静态调度实现高吞吐量。
cuBLAS GEMM API对输入输出矩阵的存储格式有严格要求。若矩阵为列主序格式,可直接使用;若为行主序格式,设置参数时易出错。本文讨论了矩阵转置与列主序存储的关系,以及在不同情况下如何使用cuBLAS GEMM API。
Apache TVM 是一个支持 CPU 和 GPU 的深度学习编译框架,提供抽象接口和优化算法调度以提升性能。教程展示了如何通过分块和向量化等技术优化矩阵乘法,显著提高计算速度。用户可通过简单代码实现高效性能,建议自行测试。
本研究提出了开放源代码加速平台OpenGeMM,旨在解决深度神经网络在边缘设备上的部署问题。实验结果显示,OpenGeMM在多种工作负载下实现了高达99.34%的硬件利用率,并显著提高了吞吐量。
本研究解决了低精度应用中计算误差显著的问题,提出了一种低秩残差量化矩阵乘法(LRQMM)方法,通过残差补偿引入低秩近似。实验结果表明,LRQMM能将直接量化矩阵乘法的误差降低1到2个数量级,同时在处理大规模矩阵时,计算速度仅降低约20%。
本论文研究了基于微环共振器的模拟光子结构,用于加速深度神经网络中的通用矩阵乘法,具有出色的吞吐量和能效。作者通过分析三种不同的调制顺序,发现它们对电路级的串扰噪声和光信号损失以及系统级的吞吐量和能量区域能够带来不同程度的影响。评估结果显示,SMWA组织在吞吐量、能效和面积能量效率方面的提升分别多达4.4倍、5倍和5.2倍。
该文介绍了一种使用M2架构的机器学习模型,能够在序列长度和模型维度上进行扩展,从而实现更长的上下文和更好的性能。该模型在非因果伯特模型、ViT图像分类和因果GPT模型三个领域展现出良好的性能。
完成下面两步后,将自动完成登录并继续当前操作。