PyTorch 2.10 发布,针对 AMD ROCm 和 Intel GPU 进行了更多改进

PyTorch 2.10 发布,针对 AMD ROCm 和 Intel GPU 进行了更多改进

💡 原文中文,约1100字,阅读约需3分钟。
📝

内容提要

PyTorch 2.10 发布,增强了对 Intel GPU、AMD ROCm 和 NVIDIA CUDA 的支持,新增功能和性能优化,包括对 Python 3.14 的支持及改进的调试功能。

🎯

关键要点

  • PyTorch 2.10 发布,增强了对 Intel GPU、AMD ROCm 和 NVIDIA CUDA 的支持。

  • 新增功能包括对 Python 3.14 的支持及改进的调试功能。

  • AMD ROCm 版本支持常规 GEMM 回退和 CK 实现分组 GEMM。

  • 改进了 Windows 上 PyTorch 对 ROCm 的支持,新增多个功能。

  • 对 Intel GPU 的支持得到多项改进,新增 Torch XPU API 和性能优化。

  • NVIDIA CUDA 支持包括模板内核、预编译内核支持和改进的 CUDA 兼容性。

  • Torch Inductor 中的 combo-kernels 水平融合降低了内核启动开销。

延伸问答

PyTorch 2.10 对 Intel GPU 的支持有哪些改进?

PyTorch 2.10 对 Intel GPU 的支持新增了多个 Torch XPU API,支持 ATen 运算符 scaled_mm 和 scaled_mm_v2,以及性能优化和其他改进。

PyTorch 2.10 中新增了哪些功能?

新增功能包括对 Python 3.14 的支持、改进的调试功能,以及对 AMD ROCm 和 NVIDIA CUDA 的增强支持。

AMD ROCm 版本在 PyTorch 2.10 中有哪些新特性?

AMD ROCm 版本现在支持常规 GEMM 回退和 CK 实现分组 GEMM,并改进了 Windows 上的支持。

PyTorch 2.10 如何改进了对 NVIDIA CUDA 的支持?

对 NVIDIA CUDA 的支持包括模板内核、预编译内核支持、改进的 CUDA 兼容性和支持嵌套内存池等。

PyTorch 2.10 中的 combo-kernels 有什么作用?

combo-kernels 水平融合降低了内核启动开销,提升了性能。

PyTorch 2.10 对 Windows 的支持有哪些增强?

在 Windows 上,PyTorch 2.10 改进了对 ROCm 的支持,新增了多个功能,如 torch.cuda._compile_kernel 和 load_inline 支持。

➡️

继续阅读