NVIDIA 推出 DGX SuperPOD,用于万亿参数规模的生成式 AI 超级计算

NVIDIA 今天宣布推出下一代 AI 超级计算机——由 NVIDIA GB200 Grace Blackwell Superchips 提供支持的 NVIDIA DGX SuperPOD,用于处理万亿参数模型,并具有持续的正常运行时间,以实现超大规模生成式 AI 训练和推理工作负载。

新型 DGX SuperPOD 采用新型高效液冷机架级架构,采用 NVIDIA DGX GB200 系统构建,可在 FP4 精度下提供 11.5 exaflops 的 AI 超级计算能力和 240 TB 的快速内存,可通过额外的机架扩展到更多。

每个 DGX GB200 系统均配备 36 个 NVIDIA GB200 超级芯片,其中包括 36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU,通过第五代 NVIDIA NVLink 连接为一台超级计算机。与 NVIDIA H100 Tensor Core GPU 相比,GB200 Superchips 对于大型语言模型推理工作负载的性能提升高达 30 倍。

NVIDIA 创始人兼首席执行官黄仁勋表示:“NVIDIA DGX AI 超级计算机是 AI 工业革命的工厂。” “新的 DGX SuperPOD 结合了 NVIDIA 加速计算、网络和软件的最新进展,使每个公司、行业和国家都能完善和生成自己的人工智能。”

由 Grace Blackwell 提供支持的 DGX SuperPOD 具有八个或更多 DGX GB200 系统,并且可以扩展到通过 NVIDIA Quantum InfiniBand 连接的数万个 GB200 超级芯片。为了获得巨大的共享内存空间来为下一代 AI 模型提供动力,客户可以部署一种配置,将 8 个 DGX GB200 系统中的 576 个 Blackwell GPU 连接起来,并通过 NVLink 连接。

面向生成式 AI 时代的全新机架级 DGX SuperPOD 架构

配备 DGX GB200 系统的全新 DGX SuperPOD 具有统一的计算结构。除了第五代 NVIDIA NVLink 之外,该结构还包括 NVIDIA BlueField -3 DPU,并将支持今天单独发布的 NVIDIA Quantum-X800 InfiniBand 网络。该架构为平台中的每个 GPU 提供每秒高达 1,800 GB 的带宽。

此外,第四代 NVIDIA 可扩展分层聚合和缩减协议 (SHARP) 技术可提供 14.4 TeraFLOPS 的网络内计算能力,与上一代相比,下一代 DGX SuperPOD 架构提高了 4 倍。

交钥匙架构与先进软件相结合,实现前所未有的正常运行时间

全新 DGX SuperPOD 是一款完整的数据中心规模 AI 超级计算机,它与 NVIDIA 认证合作伙伴的高性能存储集成,以满足生成型 AI 工作负载的需求。每个产品均在工厂内构建、布线和测试,可显着加快客户数据中心的部署速度。

由 Grace Blackwell 提供支持的 DGX SuperPOD 具有智能预测管理功能,可连续监控硬件和软件上的数千个数据点,以预测和拦截停机和低效率的根源,从而节省时间、能源和计算成本。

该软件可以识别关注领域并制定维护计划,灵活调整计算资源,并自动保存和恢复作业以防止停机,甚至无需系统管理员在场。

如果软件检测到需要更换组件,集群将激活备用容量以确保工作及时完成。可以安排任何所需的硬件更换,以避免计划外停机。

NVIDIA DGX B200 系统为行业提供先进的 AI 超级计算

NVIDIA 还推出了 NVIDIA DGX B200 系统,这是一个用于 AI 模型训练、微调和推理的统一 AI 超级计算平台。

DGX B200 是全球各行业使用的第六代风冷、传统机架式 DGX 设计。全新 Blackwell 架构 DGX B200 系统包括八个 NVIDIA Blackwell GPU 和两个第五代 Intel Xeon 处理器。客户还可以使用 DGX B200 系统构建 DGX SuperPOD,以创建 AI 卓越中心,为运行许多不同工作的大型开发团队的工作提供支持。

DGX B200 系统在新的 Blackwell 架构中包含 FP4 精度功能,可提供高达 144 petaflops 的 AI 性能、1.4 TB 的海量 GPU 内存和 64 TB/s 的内存带宽。与上一代相比,万亿参数模型的实时推理速度提高了 15 倍。

DGX B200 系统包括带有八个 NVIDIA ConnectX -7 NIC 和两个 BlueField-3 DPU 的高级网络。每个连接可提供高达 400 GB 每秒的带宽,通过 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum -X 以太网网络平台提供快速的 AI 性能。

用于扩展 AI 生产规模的软件和专家支持

所有 NVIDIA DGX 平台均包含用于企业级开发和部署的 NVIDIA AI Enterprise 软件。DGX 客户可以利用软件平台中包含的预先训练的 NVIDIA 基础模型、框架、工具包和新的 NVIDIA NIM 微服务来加速他们的工作。

NVIDIA DGX 专家和经过认证可支持 DGX 平台的精选 NVIDIA 合作伙伴在部署的每个步骤中为客户提供帮助,以便他们能够快速将 AI 投入生产。一旦系统投入运行,DGX 专家将继续支持客户优化其 AI 管道和基础设施。

供货情况配备

DGX GB200 和 DGX B200 系统的 NVIDIA DGX SuperPOD 预计将于今年晚些时候从 NVIDIA 的全球合作伙伴处供货。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/45269.html

(0)

相关推荐

发表回复

登录后才能评论