英特尔 Max 系列 GPU 上深度学习稀疏矩阵核的性能优化
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文研究了稀疏矩阵操作在机器学习应用中的优化,使用 Intel oneAPI 的 ESIMD SYCL 扩展 API 对 SPMM、SDDMM 和 FusedMM 操作进行了优化,实现的稀疏矩阵算法在目标 Intel 数据中心 GPU 的性能接近峰值,证明了其优越性。
🎯
关键要点
- 本文研究稀疏矩阵操作在机器学习应用中的三个方面:SPMM、SDDMM 和 FusedMM。
- 使用 Intel oneAPI 的 ESIMD SYCL 扩展 API 对稀疏矩阵操作进行了优化。
- ESIMD API 能够编写明确向量化的内核代码,优于 CUDA 或 SYCL。
- 实现的稀疏矩阵算法在 Intel 数据中心 GPU 上的性能接近峰值。
- 性能结果与 Intel oneMKL 库和 NVIDIA V100 GPU 上的 CUDA 实现进行了对比,证明了优越性。
➡️