PyTorch 2.8 发布，英特尔 CPU 性能更佳，助力 LLM 推理

追风者 • 2025年8月7日上午9:56 • 行业资讯

PyTorch 2.8 今日发布，这是这个广泛使用的机器学习库的最新功能更新，它已成为深度学习和其他人工智能应用的关键组成部分。新版 PyTorch 2.8 中有一些值得关注的改进。

PyTorch 2.8 提升了英特尔 CPU 的性能。特别是，它专注于使用原生 PyTorch 版本在英特尔 CPU 上进行高性能量化大型语言模型 (LLM) 推理。这项改进概述了英特尔工程师为使用原生 PyTorch 提升 x86_64 CPU 性能而进行的 LLM 量化工作。A16W8、DA8W8 和 A16W4 是受支持的模式之一。该问题单指出：

“通过此功能，在单个 x86_64 CPU 设备上运行离线模式时，PyTorch 本机堆栈的性能可以达到与 vLLM 等流行 LLM 服务框架相同的水平，甚至在某些情况下更好，这使 PyTorch 用户能够以本机体验和良好的性能运行 LLM 量化。”

本周期内，英特尔 CPU 已做出许多改进，例如FP8 QCONV、FP8 QLINEAR，并在更多实例中使用基于 AMX 的微内核。AMX 微内核的改进非常有益：

当最大自动调谐功能开启时，INT4 权重的 GEMM 模板用于通过电感器降低 aten._weight_int4pack_mm_for_cpu 的值。目前，仅当输入张量的形状为 [M, K] 且 M >= 16 时，才会使用基于 AMX 的微内核。然而，我们发现，当 4 < M < 16 时，AMX 内核会带来性能优势。例如，在第六代英特尔® 至强® 平台上，当 M = 8 时，在 32 个核心上运行 Llama-3.1-8B 时，端到端延迟可提高 20% 以上。因此，此 PR 更改了阈值，以便在 M > 4 时使用 AMX。

英特尔方面，PyTorch 2.8 还提供了对英特尔 XCCL GPU 分布式后端的实验性支持。XCCL 是英特尔独立 GPU 的分布式后端，适用于各种分布式训练范式。

PyTorch 2.8 还为 PyTorch CPP 扩展 API 带来了 SYCL 支持，为 XPU 设备带来了 A16W4 支持，实验性地支持了 Wheel 变体以及其他增强功能。

您可以通过PyTorch.org 博客和 GitHub 下载 PyTorch 2.8 版本，并了解更多详细信息。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/zixun/60406.html