更快 AI 的秘诀不是更多的 GPU,而是更智能的网络

AI 正在重塑医疗、金融、制造和零售等行业的可能性边界。但伴随巨大潜力而来的,是海量基础设施需求。

全球企业正以史无前例的规模投资 GPU,以加速 AI 训练与推理。Gartner 预测,到 2028 年生成式 AI 的 IT 支出将突破 1 万亿美元。Hyperion Research 则预计同期高性能计算市场的总支出将超过 1000 亿美元。然而尽管投入尖端加速器,众多首席信息官仍面临 GPU 闲置问题,其利用率普遍徘徊在 35% 以下。这不仅导致性能不足,更造成能源浪费与成本膨胀。

众多 AI 项目受阻并非源于 GPU 或计算力短缺,而是网络无法跟上需求,亟需建立面向大规模 AI 的新型设计方案。

更快 AI 的秘诀不是更多的 GPU,而是更智能的网络

网络瓶颈的隐性成本

当网络无法足够快地提供数据以保持 GPU 持续繁忙时,组织会遭受几个严重影响:

  • 由于数据传输瓶颈导致 GPU 和 CPU 未得到充分利用: GPU 专为大规模并行计算而设计,但它们处理数据的速度受限于数据传输速度。如果网络结构跟不上,GPU 就会处于空闲状态,等待数据,而不是进行数字运算。CPU 也可能会因为协调任务并在流水线中移动数据而停滞,导致利用率低下,尽管有昂贵的硬件可用。
  • 网络效率低下导致推理性能不一致:网络效率低下会导致数据流不均匀,从而导致 GPU 在全速和空闲状态之间波动。这会导致推理性能不稳定,从而可能影响生产环境中的 AI 应用。
  • 训练周期延长,产品上市时间延迟:训练 AI 模型需要在服务器、GPU 和存储之间传输海量数据集。网络瓶颈会限制这一过程,导致 GPU 的训练时间减少,等待时间增加。这直接拖慢了产品开发和部署进度。
  • 不断攀升的电力和运营成本:即使闲置,GPU 及其周边基础设施仍会消耗大量电力。如果由于网络效率低下导致 GPU 未得到充分利用,组织将不得不支付高昂的电力成本,而无法获得相应的性能。即使计算吞吐量受到人为限制,设施也必须支持峰值电力和冷却负载,这导致运营成本不断攀升。

企业可以继续向更多的 GPU 投入资金,但如果没有正确的网络增强,这些瓶颈和低效率只会加剧。

网络作为加速器:范式转变

该解决方案需要彻底重新思考网络架构。引入一种利用网络作为加速器的模型,颠覆了人们对高性能计算 (HPC) 和人工智能 (AI) 性能的传统思维,从而释放新的潜力。

“网络即加速器”方法并非主要关注通过 GPU 和 CPU 来增加计算能力,而是将互连结构视为性能倍增器。因此,网络可以更好地支持高密度计算,并通过消除瓶颈、扩展以满足计算需求以及合理调整硬件投资规模来加速投资回报。通过实现更强大的计算能力且不降低速度,组织可以在更小的空间内运行更大的工作负载,更快地获得结果,并避免在额外硬件上过度支出。

“网络加速器”模型如何运作

那么,这种模式如何运作,才能让企业将其网络从被动的数据移动者转变为主动的计算推动者,并开始实现其优势呢?它提供了传统网络所缺乏的四个关键功能:

  • 硬件层面的交付保证:传统网络会给 CPU 和 GPU 带来数据包跟踪、重传和重新排序的开销。这会消耗原本可用于训练或推理的计算周期。而采用硬件层面的交付保证网络结构,这些任务便可从计算节点转移,从而降低 CPU 和 GPU 的开销,实现可预测且一致的性能,以及可扩展性,从而简化编程和集群编排。
  • 智能动态路由:传统路由依赖于固定或次优路径,这可能会导致部分网络利用率不足,或在海量数据同时流动时造成瓶颈。智能路由动态利用所有可用路径来优化流量。它通过多条活动路由平衡流量来提高吞吐量,通过最优路径选择降低延迟,并通过网络流量自动重新路由绕过链路或节点故障来提高弹性。这减少了空闲时间,并确保 GPU 获得充足的数据。
  • 链路级自动重试:当数据包丢失或损坏时,标准网络依赖计算层检测并重新发送数据包,这会导致显著的延迟并中断计算流程。内置链路级自动重试功能的结构可在网络内部处理重传。由于数据包丢失对计算节点不可见,因此它实现了近乎透明的可靠性;同时,由于重试在链路本地进行,而不是在整个网络堆栈中进行,因此降低了延迟影响。此外,它还消除了复杂的应用程序级错误处理需求。自动重试功能可确保不间断、高效的分布式计算,这在跨数千个 GPU 进行扩展时至关重要。
  • 网内计算:传统网络结构主要负责传输数据,而网内计算则能够让网络成为协处理器,直接在结构内部执行某些操作。NVIDIA SHARP 就是一个很好的例子——它能够在网络交换机本身上进行缩减。这可以加速分布式操作,降低延迟(因为数据在传输网络时会被聚合),并提高效率(因为计算节点无需执行聚合任务),从而留出更多时间用于训练和模拟。

总而言之,这些功能使“网络主导计算”成为扩展下一代AI和HPC环境的基础。以网络为中心的方法可带来切实的回报,包括更高的GPU利用率(从而消除数据匮乏)、更快的洞察时间(从而缩短训练周期并稳定推理性能)、更高的资源效率以及更低的总拥有成本。

探索真正的网络力量

大规模 AI 不仅仅是一个计算问题,而是一个系统级的工程挑战,而网络是其中的核心。将网络视为加速器,可以将其转化为计算的倍增器,使高性能计算 (HPC) 和人工智能 (AI) 数据中心能够在不牺牲性能的情况下扩展密度。通过在投资更多芯片之前充分利用现有基础设施,可以更快地实现可衡量的投资回报。

通过消除瓶颈、提升利用率并提供可预测的性能,更智能的网络能够提升 AI 团队的生产力,提高 GPU 基础架构的投资回报率,并加快洞察、创新和市场领先地位的获取速度。它使组织能够真正探索其网络的潜力,并以全新方式驾驭 AI 的力量。

作者:Nishant Lodha,Cornelis Networks 的 AI 网络高级总监

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论