在超级碗、格莱美颁奖礼和奥运会等重大直播活动中,观众期待的是清晰流畅、实时无中断的观赛体验。数百万观众同时收看,广告商更是不惜重金将产品展示在观众眼前。幕后,这给流媒体服务商带来了巨大压力。哪怕短暂的故障都可能演变成无法挽回的失误,引发全球关注。
根据New Relic《2025年媒体娱乐行业可观测性预测报告》,该领域重大故障平均每小时造成 200 万美元损失。与点播流媒体不同,点播用户可能会尝试重新加载电影或电视节目,而直播观众则很可能转向其他服务商。在此环境下,提供无瑕疵的直播体验已非可选项,而是企业生存的关键。
去年,Netflix 在热门拳击赛直播中遭遇长达六小时的故障,成为头版新闻。此类事故凸显技术问题如何迅速摧毁用户信任,尤其对容错率极低的直播观众而言。因此,服务商不能依赖临时补丁或仪表盘式故障排查。成败关键在于技术架构能否从容应对峰值时刻。

构建弹性技术栈的四大步骤
那些拥有忠实用户群的直播服务商,早在硬币抛掷或开场表演之前,就已着手投资弹性架构、可观测性和冗余设计。以下是媒体娱乐企业为提供最佳观看体验应重点投入的四大技术领域:
1. 进行全面负载测试
为最大限度降低服务中断风险,直播服务提供商应在超级碗等大型赛事举办前进行严格的负载测试。这些测试不仅应涵盖视频流,还应包括完整的用户体验——从注册和支付到账户修改流程。此外,还应使用可观测性平台监控端到端系统性能,并生成负载测试数据。该平台应采用与赛事期间实际运行相同的告警配置文件和配置。这种方法能够为团队提供所需的详细洞察,以便在比赛日之前评估性能并增强系统弹性。
2. 采用统一可观测性方法
可观测性使 IT 团队能够通过检查复杂软件系统从外部生成的数据来了解其内部状态。它允许工程团队提出任何关于系统行为的问题,并获得快速解决问题所需的答案。
对于媒体和娱乐公司而言,最具影响力的方法是采用统一可观测性方法,打破视频传输、广告插入和 OTT 应用之间的信息孤岛。这为智能电视、移动应用和浏览器等渠道的利益相关者提供了网络性能的可见性,而这些渠道通常是故障最先显现的地方。
然而,真正的优势在于,统一可观测性帮助团队超越仅仅知道问题存在,而是理解问题发生的原因。在非统一的架构中,分散的工具可能会标记视频需要 10 秒才能播放,但却无法揭示是配置更改或上游服务依赖关系导致了这个问题。统一的可见性将这些信息点连接起来,从而实现更快、更可靠的问题解决。
3. 启用实时遥测
通过实时遥测持续收集数据这对于从根本上发现问题至关重要,而不仅仅是响应表面警报。虽然几乎所有工具都声称提供“实时”洞察,但真正的价值在于数据的统一。一旦将来自不同系统的遥测数据整合到一个统一的可观测性平台,其价值将呈指数级增长,从而使机器学习能够跨所有数据源执行异常检测和关联分析。这种统一的实时可见性有助于团队更快地识别新出现的问题,提出建议的解决方案,并缩短平均解决时间。
4. 考虑采用多 CDN 策略
服务提供商应重新思考其内容分发网络 (CDN) 策略。CDN 是一个分布式服务器系统,旨在加速和稳定视频或在线内容。对于直播而言,CDN 通过将内容路由到距离每个观众最近的服务器来最大限度地减少缓冲。然而,依赖单一 CDN 提供商存在局限性,尤其是在大型直播活动期间不可避免的流量高峰面前。各机构应假定其主 CDN 甚至备用 CDN 都可能在某个时候发生故障,并主动、持续地进行故障转移测试。这种方法能够在关键时刻保障性能和观众体验。
全世界都在关注,准备至关重要
弹性流媒体的未来在于服务提供商能否自动关联整个传输链中的问题。例如,如果后端亚马逊云服务 (AWS) 的配置发生变更,导致直播中断,则应立即发出警报并进行关联,而不是数小时后才发现。可观测性是人工辅助修复的基础,这一过程结合了自动化系统的速度和专家的判断,也是构建可靠架构的关键。
据 New Relic 的报告显示,随着自动化在各行业加速发展,近三分之一的媒体和娱乐机构表示,人工智能的应用已经影响到他们的可观测性战略。拥抱这一转变的服务提供商将能更快地解决突发事件,腾出更多时间进行创新,并在万众瞩目之下提供更流畅的用户体验。
现场直播瞬息万变,信任一旦失去,便无法重来。对于直播而言,成败的关键很大程度上取决于技术准备。那些全年持续投入资源,提升可观测性、冗余性和主动弹性能力的供应商,才能赢得观众的青睐,留下深刻印象。
作者: Chris McCarthy,New Relic首席架构师兼媒体与娱乐总经理
来源:New Relic
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/yinshipin/62614.html