观察：企业从 2025 年全球 IT 故障中学到了什么？

2025年的新闻热点主要集中在地缘政治事件、全球经济波动以及人工智能（AI）的进步上。然而，据提供网络性能、网络安全和可观测性解决方案的技术公司 NetScout 报道，大规模、破坏性的 IT 故障激增——其规模和影响日益全球化，也频繁出现在今年的新闻议程中。

此前，2024 年发生的一系列事件导致孤立事件升级为系统性故障，暴露了深度互联的数字基础设施，以及单个故障如何跨越组织、行业和国界引发连锁反应。

然而，NetScout 提出疑问：企业从中吸取了什么教训吗？2025 年各行业发生的大规模高调宕机事件表明，答案是否定的。这些宕机事件包括：

今年，全球云服务提供商——先是6月份的谷歌云，随后是10月和11月的AWS、Cloudflare和微软Azure 都遭遇了重大故障，导致全球各地组织机构严重依赖的关键网站、业务应用程序和在线服务瘫痪。
7月，正当英国各地成千上万的度假者准备飞往各地享受暑假之际，一场空中交通管制故障导致英国几个主要机场陷入瘫痪。

值此年末之际，NetScount 产品与解决方案区域副总裁 Eileen Haggerty 分析了这些故障，并解释了企业如何为 2026 年及以后日益普遍的 IT 故障及其影响做好准备：

从可观测性角度来看，2025 年发生了一系列影响深远的重大 IT 系统故障。从科技和交通运输到制造业和金融服务业，没有哪个行业能够幸免于意外系统故障的影响。这些严重的业务中断和不便损害了企业的声誉、客户关系和盈利能力。

“2025年也表明，任何组织都可能受到干扰，即使是拥有最先进技术、设计和架构达到最先进水平的全球顶级供应商也不例外。虽然现代应用和连接性带来了巨大的好处，但它们的互联互通特性意味着干扰可能波及范围很广。一旦发生干扰，真正的考验在于企业能够以多快的速度发现、理解并恢复。”

“与消防演习类似，需要定期练习、演练和完善的事件应对流程对于确保业务连续性和运营韧性至关重要。真正的可观测性，它不仅能帮助企业了解哪里出了问题，还能了解问题的原因和发生地点，这对于提高韧性至关重要，有助于组织最大限度地减少计划外停机的影响。”

“今年大量的 IT 故障对企业来说是一次惨痛的教训，但同时也提供了一次宝贵的学习机会。真正具有韧性的组织会将中断转化为数据，从而创建数据源和蓝图，以确保性能和运营韧性。通过从以往的事件中汲取可操作的经验教训，企业不仅可以记录最佳实践，还可以确保运营面向未来，从而在潜在挑战影响客户和业务之前预见并应对它们，”Haggerty 总结道。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/zixun/63836.html