PyTorch 2.10 今日发布,这是这款广泛使用的深度学习库的最新功能更新。新版本在继续改进对 Intel GPU 和 AMD ROCm 计算栈的支持的同时,也进一步增强了对 NVIDIA CUDA 的支持。
PyTorch 2.10 的 AMD ROCm 版本现在支持通过常规 GEMM 回退和 CK 实现分组 GEMM。此外,新版本还改进了 Microsoft Windows 上 PyTorch 对 ROCm 的支持,新增了 torch.cuda._compile_kernel 支持、load_inline 支持,并将 GFX1150/GFX1151 RDNA 3.5 GPU 添加到 hipblaslt 支持的 GEMM 列表中,同时还支持 scaled_mm v2、AOTriton scaled_dot_product_attention,改进了 ROCm 上逐点内核的启发式算法,为 ROCm 上的 fast_tanhf 函数提供了代码生成支持,以及其他改进。
PyTorch 2.10 对 Intel GPU 的支持也得到了多项改进。新增了多个适用于 Intel GPU 的 Torch XPU API,支持 ATen 运算符 scaled_mm 和 scaled_mm_v2,支持 _weight_int8pack_mm,并且 PyTorch CPP 扩展 API 中的 SYCL 支持允许在 Windows 上实现新的自定义运算符。此外,还有一些针对 Intel 的性能优化和其他改进。
PyTorch 2.10 中的 NVIDIA CUDA 支持也拥有更多功能。PyTorch 2.10 中的 CUDA 支持包括模板内核、预编译内核支持、自动添加 CUDA 头文件、支持 cuda-python CUDA 流协议、改进了 CUDA 13 兼容性、支持嵌套内存池、Thor 上的 CUTLASS MATMULs 等。
PyTorch 2.10 还为 torch.compole() 引入了对 Python 3.14 的支持,并实验性地支持 Python 3.14 的自由线程版本。此外,Torch Inductor 中的 combo-kernels 水平融合降低了内核启动开销,改进了调试功能,并增强了量化功能。

通过 GitHub 下载 PyTorch 2.10 并了解更多详情。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/64433.html