英特尔 Max 系列 GPU 上深度学习稀疏矩阵核的性能优化
原文中文,约400字,阅读约需1分钟。发表于: 。本文主要研究稀疏矩阵操作在机器学习应用中的三个方面,分别是稀疏 - 稠密矩阵乘法(SPMM)、采样稠密 - 稠密矩阵乘法(SDDMM)以及 SDDMM 与 SPMM 的组合。我们利用 Intel oneAPI 的显式 SIMD(ESIMD)SYCL 扩展 API 对 SPMM、SDDMM 和 FusedMM 操作进行了优化,与 CUDA 或 SYCL 相比,ESIMD API...
本文研究了稀疏矩阵操作在机器学习应用中的优化,使用 Intel oneAPI 的 ESIMD SYCL 扩展 API 对 SPMM、SDDMM 和 FusedMM 操作进行了优化,实现的稀疏矩阵算法在目标 Intel 数据中心 GPU 的性能接近峰值,证明了其优越性。