英特尔 Max 系列 GPU 上深度学习稀疏矩阵核的性能优化

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文研究了稀疏矩阵操作在机器学习应用中的优化,使用 Intel oneAPI 的 ESIMD SYCL 扩展 API 对 SPMM、SDDMM 和 FusedMM 操作进行了优化,实现的稀疏矩阵算法在目标 Intel 数据中心 GPU 的性能接近峰值,证明了其优越性。

🎯

关键要点

  • 本文研究稀疏矩阵操作在机器学习应用中的三个方面:SPMM、SDDMM 和 FusedMM。
  • 使用 Intel oneAPI 的 ESIMD SYCL 扩展 API 对稀疏矩阵操作进行了优化。
  • ESIMD API 能够编写明确向量化的内核代码,优于 CUDA 或 SYCL。
  • 实现的稀疏矩阵算法在 Intel 数据中心 GPU 上的性能接近峰值。
  • 性能结果与 Intel oneMKL 库和 NVIDIA V100 GPU 上的 CUDA 实现进行了对比,证明了优越性。
➡️

继续阅读