实时互动网 ·

PyTorch 2.8 发布，英特尔 CPU 性能更佳，助力 LLM 推理

💡 原文中文，约1100字，阅读约需3分钟。

📝

内容提要

PyTorch 2.8 发布，提升了英特尔 CPU 性能，专注于大型语言模型的高性能量化推理。新增 A16W8、DA8W8 和 A16W4 模式，优化 AMX 微内核，改善特定条件下的性能。同时，提供对英特尔 XCCL GPU 的实验性支持，并增强了 PyTorch CPP 扩展 API。

🎯

关键要点

PyTorch 2.8 发布，提升了英特尔 CPU 性能。
专注于使用原生 PyTorch 进行高性能量化大型语言模型推理。
新增 A16W8、DA8W8 和 A16W4 模式，优化 AMX 微内核。
在特定条件下，PyTorch 性能可与 vLLM 等流行框架相媲美。
改进包括 FP8 QCONV、FP8 QLINEAR 和基于 AMX 的微内核。
AMX 微内核在 M > 4 时提供性能优势。
提供对英特尔 XCCL GPU 的实验性支持。
增强了 PyTorch CPP 扩展 API，支持 SYCL 和 XPU 设备。
用户可通过 PyTorch.org 博客和 GitHub 下载 PyTorch 2.8 版本。

❓

延伸问答

PyTorch 2.8 的主要改进是什么？

PyTorch 2.8 提升了英特尔 CPU 性能，专注于高性能量化大型语言模型推理，并新增了 A16W8、DA8W8 和 A16W4 模式。

PyTorch 2.8 如何提升英特尔 CPU 的性能？

通过优化 AMX 微内核和支持新的量化模式，PyTorch 2.8 在特定条件下提升了英特尔 CPU 的性能。

PyTorch 2.8 支持哪些新的量化模式？

PyTorch 2.8 新增了 A16W8、DA8W8 和 A16W4 三种量化模式。

PyTorch 2.8 对英特尔 XCCL GPU 有何支持？

PyTorch 2.8 提供了对英特尔 XCCL GPU 的实验性支持，适用于分布式训练。

AMX 微内核在 PyTorch 2.8 中的作用是什么？

AMX 微内核在 M > 4 时提供性能优势，优化了量化推理的效率。

用户如何获取 PyTorch 2.8？

用户可以通过 PyTorch.org 博客和 GitHub 下载 PyTorch 2.8 版本。

🏷️

继续阅读

Free CPU教程丨西湖大学张岳团队开源科研插图神器AutoFigure，可精准理解长篇科学文本
西湖大学的张岳团队推出了智能科研插图生成系统AutoFigure，旨在解决高质量科研插图的生成难题。该系统基于长篇科学文本，确保插图的逻辑结构准确且视觉美...
记一次 .NET 某注塑模具系统 CPU爆高分析 - 一线码农
最近一位朋友遇到CPU使用率飙升的问题，分析dump文件后发现程序仅使用两个核心，导致负载过高。调查显示，GC触发是由于大对象堆（LOH）满，主要原因是将...
[MAF预定义ChatClient中间件-01]LoggingChatClient——在调用LLM前后输出日志 - Artech
LoggingChatClient是一个IChatClient中间件，用于记录调用日志，帮助调试和监控Agent行为。它记录输入、输出及时间戳信息，并支持...
华擎推出预装CPU的N250M/D5单内存主板采用被动散热定位入门级台式机
华擎推出的N250M/D5主板预装英特尔N250处理器，适合入门级台式机，主要用于办公和学习。该主板采用被动散热设计，运行安静，支持单条DDR5内存和多种...
微软首款高级推理人工智能问世
微软在2026年Build大会上发布了多款新AI模型，旗舰模型MAI-Thinking-1是其自主开发的重要进展，表现优异，基于干净数据训练。此外，还推出...
OpenAI的Codex新增工具——网站、注释及更多插件——助力知识工作者
OpenAI最近推出了Codex的新功能，包括“网站”和“注释”，旨在帮助知识工作者创建互动网站和定制仪表板，支持团队协作。新插件将涵盖数据分析、销售和产...