PyTorch 2.10 发布，针对 AMD ROCm 和 Intel GPU 进行了更多改进

追风者 • 2026年1月22日上午10:12 • 行业资讯

PyTorch 2.10 今日发布，这是这款广泛使用的深度学习库的最新功能更新。新版本在继续改进对 Intel GPU 和 AMD ROCm 计算栈的支持的同时，也进一步增强了对 NVIDIA CUDA 的支持。

PyTorch 2.10 的 AMD ROCm 版本现在支持通过常规 GEMM 回退和 CK 实现分组 GEMM。此外，新版本还改进了 Microsoft Windows 上 PyTorch 对 ROCm 的支持，新增了 torch.cuda._compile_kernel 支持、load_inline 支持，并将 GFX1150/GFX1151 RDNA 3.5 GPU 添加到 hipblaslt 支持的 GEMM 列表中，同时还支持 scaled_mm v2、AOTriton scaled_dot_product_attention，改进了 ROCm 上逐点内核的启发式算法，为 ROCm 上的 fast_tanhf 函数提供了代码生成支持，以及其他改进。

PyTorch 2.10 对 Intel GPU 的支持也得到了多项改进。新增了多个适用于 Intel GPU 的 Torch XPU API，支持 ATen 运算符 scaled_mm 和 scaled_mm_v2，支持 _weight_int8pack_mm，并且 PyTorch CPP 扩展 API 中的 SYCL 支持允许在 Windows 上实现新的自定义运算符。此外，还有一些针对 Intel 的性能优化和其他改进。

PyTorch 2.10 中的 NVIDIA CUDA 支持也拥有更多功能。PyTorch 2.10 中的 CUDA 支持包括模板内核、预编译内核支持、自动添加 CUDA 头文件、支持 cuda-python CUDA 流协议、改进了 CUDA 13 兼容性、支持嵌套内存池、Thor 上的 CUTLASS MATMULs 等。

PyTorch 2.10 还为 torch.compole() 引入了对 Python 3.14 的支持，并实验性地支持 Python 3.14 的自由线程版本。此外，Torch Inductor 中的 combo-kernels 水平融合降低了内核启动开销，改进了调试功能，并增强了量化功能。