应用 Exo 解决矩阵乘法微内核生成

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

KBLAS是一种新的开源高性能库,提供针对CUDA启用的GPU的高优化的2级BLAS功能,性能比现有实现超越50%至60%,并已集成到NVIDIA的标准BLAS实现中。

🎯

关键要点

  • KBLAS是一种新的开源高性能库。
  • KBLAS提供针对CUDA启用的GPU的高优化的2级BLAS功能。
  • KBLAS在密集线性代数算法上的性能比现有实现提升50%至60%。
  • KBLAS已集成到NVIDIA的标准BLAS实现中(cuBLAS)。
🏷️

标签

➡️

继续阅读