强化 FSDP2 分布式训练支持，摩尔线程发布 Torch-MUSA v2.1.1

厂商动态 • 来源：摩尔线程 • 2025年9月10日下午3:15 • 行业资讯

近日，摩尔线程发布其面向PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.1.1。该版本在v2.1.0的基础上，进一步扩展了对大规模深度学习模型训练与推理的支持能力，并在编译优化、计算性能和算子生态等方面实现显著增强。

Torch-MUSA v2.1.1核心特性

全新的v2.1.1版本集成了v2.1.0版本的多项重要特性，主要包括：

FSDP2分布式训练支持：引入基于DTensor的每参数分片策略，结合摩尔线程MUSA架构GPU深度优化，大幅提升大模型分布式训练效率。

AOTInductor集成：支持模型针对摩尔线程计算卡进行提前编译（Ahead-of-Time编译），优化推理部署流程。

内存管理优化：新增可插拔的MUSA内存统一系统分配器后端，有效缓解GPU内存碎片化问题，降低训练峰值内存占用。

Triton-MUSA后端增强：为torch.compile提供完整的Triton-MUSA后端支持，减少设备特定代码，提升编译效率。

PyTorch3D原生支持：扩展对PyTorch3D计算库的支持，确保3D深度学习工作流在摩尔线程计算卡上的流畅运行。

本次发布的 v2.1.1 版本，聚焦于进一步释放硬件潜力，并在关键计算路径上实现加速：

引入MUSA Graphs后端：为torch.compile新增MUSA Graphs后端，进一步降低主机开销，并通过MUSA Graph技术实现端到端的计算加速。

集成muSolver计算库：将muSolver深度集成至多个线性代数算子的后端，提升计算效率和数值稳定性。

新增融合算子：支持使用MUSA原生的FusedAdamW和FusedAdam，通过算子融合减少内核启动开销，提升训练效率。

算子性能优化与扩展：持续优化算子性能，原生支持算子数量超过950个，大幅提升模型的适配性。

扩展基准测试模块：加强对更多算子用例的性能评估支持，方便用户进行全面的性能对比与分析。

体验与生态兼容持续优化

从上一版本开始，Torch-MUSA在用户体验和生态兼容性方面实现了显著的改进与优化：

简化集成流程：从v2.1.0开始支持torch_musa自动加载，用户无需在Python脚本中显式调用”import torch_musa”导入即可使用，简化了集成流程。

生态兼容：v2.1.0和v2.1.1均基于PyTorch 2.5.0构建，确保了与主流PyTorch生态工具链的兼容性。

持续性能优化：在FP8混合精度训练（v2.0.0引入的特性）、内核融合、通信优化等方面进行了持续优化，为用户带来更加稳定、高效的开发体验。

Torch-MUSA 开源地址：

https://github.com/MooreThreads/torch_musa

未来计划：

Torch-MUSA将继续跟进PyTorch的版本更新，计划下一版本支持PyTorch 2.7，并持续优化性能与功能，为基于MUSA架构的国产全功能GPU构建更强大的深度学习生态。

版权声明：本文内容转自互联网，本文观点仅代表作者本人。本站仅提供信息存储空间服务，所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至1393616908@qq.com 举报，一经查实，本站将立刻删除。

赞 (0)

厂商动态认证作者

0

行业资讯

平均帧率提升超110%，摩尔线程发布《黑神话：悟空》专属优化驱动

8月28日，摩尔线程推出专为《黑神话：悟空》优化的图形显卡驱动程序，版本号为v270.80.0.1 beta。经过摩尔线程驱动开发团队持续一周的优化，专属驱动程序在提升游戏性能方…

厂商动态
2024年8月28日
行业资讯

摩尔线程与云宏完成产品兼容互认证，满足虚拟化应用市场需求

近日，摩尔线程数据中心级多功能GPU 产品MTT S2000与云宏信息科技股份有限公司（简称：云宏）CNware WinSphere服务器虚拟化软件、CNware WinStack…

厂商动态
2023年3月2日
行业资讯

摩尔线程发布云电脑驱动MT vGPU 2.7.0｜首次支持DirectX 12，全场景生产力升级

3月18日，摩尔线程正式发布云电脑驱动MT vGPU 2.7.0。新版本在国内首次实现了国产GPU云电脑对DirectX 12的支持，同时显著提升图形渲染性能与兼容性。通过全功能G…

厂商动态
2025年3月18日
行业资讯

摩尔线程MCCX元计算一体机首秀，为元宇宙应用提供元计算算力

2月8日，联想服务器品牌战略暨新品发布会在北京成功举办。作为联想服务器合作伙伴，摩尔线程首次展示了与联想共同打造的MCCX元计算一体机，并演示了AIGC内容创作平台MT马良如何流畅…

厂商动态
2023年2月10日
行业资讯

代码合集｜摩尔线程火速支持DeepSeek开源周“全家桶”

DeepSeek开源周正式收官，作为国内率先原生支持FP8计算精度的国产GPU企业，摩尔线程迅速响应，并在短时间内，成功实现对DeepSeek各个开源项目的全面支持，涵盖Flash…

厂商动态
2025年3月1日
行业资讯

摩尔线程发布图形显卡驱动v280.90.1

12月20日，摩尔线程发布最新图形显卡驱动程序v280.90.1，旨在通过深入的性能优化和关键问题修复，为用户带来更加流畅和沉浸式的游戏体验。在本次更新中，摩尔线程快速响应玩家需…

厂商动态
2024年12月20日