从核心到边缘:为人工智能的未来扩展网络

目前,电信行业的许多讨论都集中在运行 AI 训练工作负载的超大规模和云数据中心上,而网络核心在促进这些数据中心之间高容量数据传输方面发挥着至关重要的作用。最终,这些工作负载将转移到网络边缘,以实现 AI 推理。此功能将重塑各行各业的业务功能,使企业能够利用预先训练的 AI 模型在更靠近最终用户的边缘站点处理请求。尽管推理的带宽占用率低于 AI 训练工作负载,但它仍将推动互联网运营商通过降低延迟和增强可扩展容量来优化其长途基础设施和网络站点,从而帮助他们支持这一新兴用例。

从核心到边缘:为人工智能的未来扩展网络

市场力量和基础设施增强

分析师预测,到2029年,针对人工智能优化的加速服务器将占数据中心市场1万亿美元资本支出的近一半。反过来,互联网运营商的架构转型必须支持多项关键的网络特性,以便企业和超大规模企业能够最大化其人工智能投资。然而,这些动态、对延迟敏感的工作负载给传统网络带来了瓶颈风险和其他挑战。随着数据中心加大对加速 GPU 和 TPU 服务器的投资,其基础设施会生成和消耗海量数据集,从而给网络链路带来额外压力。那么,推理将如何改变网络基础设施,以降低延迟、抖动和其他风险? 

推理与内容分发网络(CDN) 有着类似的要求,包括快速、本地化的交付。然而,由于 AI 推理与上下文相关,其动态性更强、缓存能力更差,因此可靠的网络性能对其实时运行至关重要。让我们探讨电信运营商如何通过优化关键网络性能(包括覆盖范围、容量、可扩展性等)来满足 AI 推理的去中心化需求。

可靠且广泛的足迹

与 CDN 一样,骨干网在通过接入点 (PoP) 将推理响应分发给最终用户方面至关重要,这些接入点可在主要和新兴市场提供优化的连接。最终,推理将依赖于广泛的覆盖范围,使运营商能够本地化 AI 工作负载,并提供对构成全球互联网的 70,000 多个网络的访问,从而确保向最终用户提供低延迟交付。 

可靠性是支持这一技术演进的另一个关键网络方面,它使企业能够利用高可用性服务将模型输出交付到边缘。互联网运营商可以通过网络多样性和基于延迟的分段路由来提高可靠性,从而在服务中断时将客户的AI流量路由到下一个最佳的低延迟路径。在地缘政治破坏、天气相关的中断以及光纤意外中断等事件日益增多、威胁实时AI运营的背景下,可靠性至关重要。 

通过光学创新最大化可扩展容量

在数据中心创新以支持新兴应用的同时,互联网运营商也在转型其光纤网络基础设施,以通过可扩展的容量支持人工智能用例。运营商越来越多地利用开放光纤线路系统将 400G 相干可插拔光模块集成到骨干网络中,从而满足客户的容量和可扩展性需求。与依赖传统转发器的传统架构不同,相干可插拔光模块采用模块化、软件驱动的方法,能够与人工智能工作负载的分布式动态特性及其实时容量需求相协调。 

虽然推理将在边缘进行,但训练数据仍必须发送回核心网络和云网络进行聚合和分析。400G 相干可插拔设备(以及即将推出的 800G 可插拔设备)通过核心、云和边缘节点之间的高容量链路实现核心-边缘协同,使运营商能够支持人工智能不断变化的数据需求。面对人工智能巨大的能源需求,与传统转发器相比,这些可插拔设备还能减少空间和功耗,帮助运营商提高其网络基础设施的成本效益和可持续性。

无论哪种情况,主干网连接仍然至关重要

虽然目前 AI 工作负载通常集中在超大规模数据中心和云数据中心,但推理标志着 AI 演进的下一阶段。骨干网连接对于数据中心之间 AI 数据传输的重要作用已得到充分证实。然而,企业必须牢记,骨干网连接对于支持网络边缘的最终 AI 功能也将至关重要。通过最大限度地利用这些关键的网络特性,互联网运营商可以为 AI 推理奠定基础,帮助超大规模数据中心运营商、云数据中心运营商和企业通过可扩展、可靠的连接释放 AI 的商业价值。

作者:Mattias Fridström,Arelion的副总裁兼首席推广官。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/59506.html

(0)

相关推荐

发表回复

登录后才能评论