英特尔 Max 系列 GPU 上深度学习稀疏矩阵核的性能优化
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文研究了稀疏矩阵操作在机器学习应用中的优化,使用 Intel oneAPI 的 ESIMD SYCL 扩展 API 对 SPMM、SDDMM 和 FusedMM 操作进行了优化,实现的稀疏矩阵算法在目标 Intel 数据中心 GPU 的性能接近峰值,证明了其优越性。
🎯
关键要点
-
本文研究稀疏矩阵操作在机器学习应用中的三个方面:SPMM、SDDMM 和 FusedMM。
-
使用 Intel oneAPI 的 ESIMD SYCL 扩展 API 对稀疏矩阵操作进行了优化。
-
ESIMD API 能够编写明确向量化的内核代码,优于 CUDA 或 SYCL。
-
实现的稀疏矩阵算法在 Intel 数据中心 GPU 上的性能接近峰值。
-
性能结果与 Intel oneMKL 库和 NVIDIA V100 GPU 上的 CUDA 实现进行了对比,证明了优越性。
🏷️