为什么网络架构才是实时人工智能的真正制约因素

人工智能已从实验性工具转变为现代企业的支柱，并将行业的关注点从模型训练转移到分布式智能的协调。但这种大规模扩展也暴露了一个关键的物理限制。在实现实时人工智能的竞赛中，世界一直关注人工智能的“大脑”——大语言模型（LLM）和 GPU 集群，却忽略了人工智能生命周期的物理现实。需要处理的数据通常远离计算发生的位置。

今年仅第一个月，全球 token（词元）使用量就翻了一番，超过13 万亿。然而，人工智能模型扩展的瓶颈并非仅仅是电力或 GPU 的可用性，而是连接它们的网络固有的延迟和结构僵化。随着网络容量需求的增长，传统基础设施已无法支持下一代人工智能所需的高速数据流。我们现在正处于分布式智能实时编排的时代，而我们的传统系统正开始出现问题。

架构转型

要理解为什么传统的全球网络不再适用，我们必须考虑数据传输方式的重大变化。传统的企业网络是为可预测的工作负载和相对稳定的流量模式而构建的。例如，员工打开客户关系管理系统 (CRM)，发送一个小请求，然后接收适量的数据。而现在，大部分流量都是从用户设备传输到集中式数据中心或云区域，然后再返回。

然而，人工智能工作负载代表着一种截然不同的流量：它们对延迟极其敏感，且高度分散。我们正在目睹两种结构性转变，而传统网络和广域网（WAN）的设计初衷并非为了应对这些转变。

85/15 比例的终结

从历史上看，互联网带宽的建设一直基于一种非对称模式。大约 85% 的带宽用于“下行”或内容传输，而仅有 15% 用于“上行”或内容创作。生成式人工智能和实时推理正在彻底颠覆这一比例。

随着企业部署越来越多的AI应用，上行链路正成为主要瓶颈。这是由于数百万边缘设备和AI辅助媒体工具不断地将高保真数据反馈到GPU集群进行处理。这种向丰富的双向数据传输的转变将使移动网络不堪重负。如果没有额外的频谱资源，预计到2029年，运营商只能满足三分之二的上行链路需求。对于IT领导者而言，这意味着传统的非对称网络已无法满足需求，现代企业需要改变连接设计方式。

虽然过去南北向流量是优先考虑的，但如今服务器、云和数据中心之间的流量已经超过了它。在现代人工智能工作流程中，用户的单个提示不仅仅触发一个响应，而是会触发一系列内部数据传输。如果网络仍然针对 SaaS 时代进行了优化，这种内部通信就会造成累积性的延迟损失。在这些数据孤岛之间跳转的每一毫秒都会降低最终输出的质量，使实时助手变成一个迟缓且令人沮丧的工具。

边缘优先推理的兴起

企业现在意识到，它们无法通过计算能力弥补网络连接的不足。为了克服全球网络速度受限的问题，成功的企业正在将推理引擎部署到更靠近数据源的位置。通过在网络边缘部署专用的裸机计算设备，并利用高速专用光纤链路进行连接，企业可以完全绕过拥堵的公共互联网。

这便创建了一个单一的逻辑系统。通过软件定义网络 (SDN)，位于弗吉尼亚州北部的 GPU、位于伦敦的向量数据库以及位于新加坡的最终用户可以像在同一台服务器上一样协同工作。在实时人工智能中，速度与一致性同等重要。如果一个令牌需要 10 毫秒才能到达，而下一个令牌需要 100 毫秒，则模型的输出将变得不稳定。私有专用连接是确保企业级人工智能所需确定性性能的唯一途径。

为代理流量激增做好准备

向人工智能代理的过渡使得对一致性和速度的需求变得更加重要。如果说第一波人工智能浪潮是关于聊天机器人，那么第二波则是关于智能代理，这将给全球基础设施带来前所未有的压力。

与人类提出单一指令不同，代理之间的通信会产生大量、持续的 token 交换，而传统系统从未设计用于处理这种情况。代理之间的通信通常需要比标准的人类与人工智能交互多 5 到 10 倍的 token。在 Megaport，我们已经看到某些渠道的流量激增超过 100%，这些渠道的早期代理集成工作已经开始。如果您的网络现在还在为聊天机器人而苦苦挣扎，那么未来它将不堪重负。