开源机器学习框架PyTorch 2.8正式发布,提升量化LLM推理性能
内容提要
PyTorch 2.8 正式发布,提升了 Intel CPU 上的量化 LLM 推理性能,并实验性支持 Intel GPU 的分布式后端。新增 libtorch ABI、SYCL 优化和控制流算子等功能,显著提高了性能和兼容性。
关键要点
-
PyTorch 2.8 正式发布,提升了 Intel CPU 上的量化 LLM 推理性能。
-
实验性支持 Intel GPU 的分布式后端,适用于不同训练范式。
-
引入稳定的 libtorch ABI,减少兼容性问题。
-
新增 SYCL 与 XPU 优化,支持 A16W4 模式。
-
实验性轮子变体机制支持,方便平台依赖的包安装。
-
ROCm 支持增强,增加对 gfx950 架构的支持。
-
新增控制流算子支持,包括 cond、while_loop、scan 等。
-
Inductor CUTLASS 后端支持,覆盖 GEMM、fp8 mm、addmm 和 bmm 操作。
延伸问答
PyTorch 2.8 的主要改进是什么?
PyTorch 2.8 主要提升了 Intel CPU 上的量化 LLM 推理性能,并实验性支持 Intel GPU 的分布式后端。
PyTorch 2.8 如何提升量化 LLM 的推理性能?
通过引入 FP8 QCONV、FP8 QLINEAR 和 AMX 微内核等优化,显著提升了性能。
什么是 libtorch ABI,它在 PyTorch 2.8 中的作用是什么?
libtorch ABI 提供了更稳定的接口,减少了第三方 C++/CUDA 扩展的兼容性问题。
PyTorch 2.8 中新增了哪些控制流算子?
新增的控制流算子包括 cond、while_loop、scan、associative_scan 和 map。
PyTorch 2.8 对 Intel GPU 的支持有哪些变化?
新增了对 Intel GPU 的 XCCL 分布式后端的实验性支持,适用于不同训练范式。
PyTorch 2.8 的下载地址在哪里?
PyTorch 2.8 的下载地址是 https://github.com/pytorch/pytorch/releases/tag/v2.8.0。