PyTorch 2.8 发布,英特尔 CPU 性能更佳,助力 LLM 推理

PyTorch 2.8 发布,英特尔 CPU 性能更佳,助力 LLM 推理

💡 原文中文,约1100字,阅读约需3分钟。
📝

内容提要

PyTorch 2.8 发布,提升了英特尔 CPU 性能,专注于大型语言模型的高性能量化推理。新增 A16W8、DA8W8 和 A16W4 模式,优化 AMX 微内核,改善特定条件下的性能。同时,提供对英特尔 XCCL GPU 的实验性支持,并增强了 PyTorch CPP 扩展 API。

🎯

关键要点

  • PyTorch 2.8 发布,提升了英特尔 CPU 性能。
  • 专注于使用原生 PyTorch 进行高性能量化大型语言模型推理。
  • 新增 A16W8、DA8W8 和 A16W4 模式,优化 AMX 微内核。
  • 在特定条件下,PyTorch 性能可与 vLLM 等流行框架相媲美。
  • 改进包括 FP8 QCONV、FP8 QLINEAR 和基于 AMX 的微内核。
  • AMX 微内核在 M > 4 时提供性能优势。
  • 提供对英特尔 XCCL GPU 的实验性支持。
  • 增强了 PyTorch CPP 扩展 API,支持 SYCL 和 XPU 设备。
  • 用户可通过 PyTorch.org 博客和 GitHub 下载 PyTorch 2.8 版本。

延伸问答

PyTorch 2.8 的主要改进是什么?

PyTorch 2.8 提升了英特尔 CPU 性能,专注于高性能量化大型语言模型推理,并新增了 A16W8、DA8W8 和 A16W4 模式。

PyTorch 2.8 如何提升英特尔 CPU 的性能?

通过优化 AMX 微内核和支持新的量化模式,PyTorch 2.8 在特定条件下提升了英特尔 CPU 的性能。

PyTorch 2.8 支持哪些新的量化模式?

PyTorch 2.8 新增了 A16W8、DA8W8 和 A16W4 三种量化模式。

PyTorch 2.8 对英特尔 XCCL GPU 有何支持?

PyTorch 2.8 提供了对英特尔 XCCL GPU 的实验性支持,适用于分布式训练。

AMX 微内核在 PyTorch 2.8 中的作用是什么?

AMX 微内核在 M > 4 时提供性能优势,优化了量化推理的效率。

用户如何获取 PyTorch 2.8?

用户可以通过 PyTorch.org 博客和 GitHub 下载 PyTorch 2.8 版本。

➡️

继续阅读