SVG访谈:谷歌云的Anshul Kapoor畅谈体育直播中“生成式制作”的未来

随着体育直播行业迈入2026年,AI 将在制作与传播环节实现更深度的融合。体育直播领域的制作领军者深知,最具价值的瞬间往往不仅取决于最终结果,更源于其背后的铺垫、情感张力和紧张氛围所构成。谷歌云正引领这场变革,通过 AI 分析观众情绪、球员行为及赛场细微线索,实时捕捉关键时刻的发生。

岁末之际,SVG 专访谷歌云媒体解决方案负责人 Anshul Kapoor,探讨基于情境感知的 AI 如何重塑赛事集锦,并通过球迷视角——即关注比赛势头、期待感与即时反应而非单纯数据统计,革新现场观赛体验。他认为这种情境感知观赛模式不仅能大幅提升观众的沉浸式体验,更将开启体育直播“生成式制作”的新纪元。

SVG访谈:谷歌云的Anshul Kapoor畅谈体育直播中“生成式制作”的未来
谷歌云媒体解决方案主管 Anshul Kapoor

您能否预测一下 AI 将在 2026 年如何改变体育赛事直播吗?

对于电视直播,尤其是体育赛事,精彩集锦的关键在于动态,而不仅仅是数字。在体育赛事直播中,人工智能的应用远不止于记录进球。它能够解读现场观众的欢呼声、球员的紧张情绪以及细微的反应,从而精准把握比赛真正转折的关键时刻——有时甚至在进球前30秒就能做到。这种基于情境的观看方式将使观众的观赛体验更加身临其境。

体育媒体的真正变革,在于从单纯“记录”比赛转向借助 AI 实现对比赛的真正“理解”。当前赛事分析聚焦于简单元数据——诸如“进球”或“达阵”这类“名词”;而情境感知型 AI 则运用先进的多模态模型(分析视频、音频和文本),捕捉赛事全貌,包括“动词和形容词”层面的细节,例如攻防转换前的紧张氛围或球员的防守强度。

那么,这与生成式 AI 在体育赛事制作中的潜力有何关系呢?

在未来 12-18 个月内,这项能力将实现生成式制作——不再仅仅使用 AI 来记录比赛历史,而是真正利用它来创建全新的内容和素材,例如大量的定制短片、预告片和高度个性化的粉丝剪辑。

这使得传统的广播从单一信号源转变为无限生成特定、高价值内容的生成器,并将行业的重点从仅仅节省基本剪辑费用转移到创造全新的收入来源。

这些 AI 工具如何区分真实的情绪信号(例如紧张情绪的上升或观众的期待)和噪音或误报?

区分真实情绪信号和噪音的关键在于多模态和三角测量。如果 AI 只关注单一信号,例如音量,“响就是响”,那么很可能出现误报(例如,AI 仅基于噪音信号将某个时刻标记为精彩瞬间,但该噪音与比赛无关)。

我们 AI 的“超能力”在于它能够同时分析多个数据流:它能够综合运用所见(计算机视觉捕捉到的球员活动)、所听(观众紧张和喧闹时的特定频率)以及所读(球员遥测数据和比赛计时器)三者。这种三角测量法确保了高度的可靠性。例如,音量突然升高而球员活动却没有相应升高,会被判定为简单的噪声。只有当多个数据点相互印证某个情境时,例如当球员展现出高度防守强度时,观众的欢呼声也随之高涨——AI 才能确认并生成一个包含丰富情境的瞬间,而这在以前是人工记录员无法稳定捕捉到的。

对于那些想要尝试使用这些 AI 工具的人来说,将这种情境感知分析集成到直播流程中(尽可能避免增加延迟)的工作流程是怎样的?

延迟是直播的大敌,所以我们并不建议您拆除现有的基础设施。为了在不增加延迟的情况下集成这种情境感知分析,AI 将以“智能辅助系统”的形式运行,这是一个“设置好就不用管”的系统,可以与您现有的设置并行工作。一部分视频信号发送到传统的切换台,另一部分则发送到云端进行智能分析。我们并不认为 AI 会取代视频切换台,因为这会引入不可接受的延迟,并剥夺至关重要的人工创意。相反,AI 的角色是作为终极制作助手,不断为制作团队提供比人工记录员更优的选择。

AI 代理很快将成为导演最好的“幕僚长”,自动创建元数据、图形和评论选项,并将这些精简后的素材发送回人类团队供播出使用。

这项技术针对不同运动项目的定制化程度如何?尤其是在观众噪音、球员反应和比赛节奏可能差异巨大的情况下?

定制化至关重要,因为通用的 AI 模型无法应用于所有运动项目;考虑到规则、术语和观众互动(每项运动都有其独特的“方言”)的巨大差异,足球模型对高尔夫并不适用。为了确保准确性,我们采用智能体AI,允许客户构建定制的、特定运动项目的智能体——例如,专门针对网球规则和观众互动进行微调的“网球智能体”。 

尽管底层模型相同,但这种基于代理的方法意味着系统可以主动代表制作团队完成复杂的、特定于体育项目的目标。这种高度专业化不仅确保了精准的上下文感知分析,也为自动化复杂的多步骤制作流程铺平了道路。例如,在篮球比赛中,代理必须首先检测屏幕上的动作,查找相关上下文,检索特定的统计数据或视频,然后生成响应。这一过程将从根本上提高内容创作的经济效益。

您认为这种更深层次的上下文理解技术何时才能成为主流体育赛事直播的标配(或者您认为它何时才能成为标配),而不仅仅是实验性应用?

我们已经完成了早期用户的实验阶段,预计这种更深层次的上下文理解技术很快就会成为标配。主要驱动力是观众的需求;球迷们现在已经习惯于在第二屏幕上观看高度个性化的直播内容。在2026-2027赛季的全球重大体育赛事中,这项功能将成为基本要求,从“实验性”功能转变为“必备”功能。这项技术不再是奢侈品;它是版权所有者在碎片化的市场中最大化内容价值并保持观众注意力的唯一途径。简而言之,观众的忠诚度将转向只有人工智能才能提供的增强型个性化体验,使其成为主流体育赛事直播的必备组成部分。

从工作流程的角度来看,是否存在对实时捕捉这些关键情境时刻至关重要的特定信号或数据流?

捕捉这些关键的实时情境时刻,关键在于融合。任何单一的数据流都不足以胜任。必要的信号是视频(特别是计算机视觉和球员追踪数据)、音频(例如人群欢呼声和解说的细微差别)以及遥测数据(即官方统计数据和比赛计时器)的组合。最大的技术挑战在于同步,而不仅仅是数据采集。如果音频欢呼声比视频进球提前 200 毫秒到达,模型就无法将事件与相应的情绪联系起来。我们的优势在于能够实时完美地对齐这些庞大且分散的数据流。正是这三者的结合,使得人工智能能够超越简单地记录比赛的基本“名词”,开始真正“理解”当时的实际情况、情感“动词”和描述性“形容词”。

在 AI 的强大力量方面,体育媒体市场最低估的因素是什么?

体育媒体市场需要开始更宏观地思考其盈利模式。正如我之前提到的,我们目前看到的最大趋势是生成式内容制作。而有趣的是:我们以这种方式(例如:定制短片、预告片和高度个性化的粉丝剪辑)产出的内容越多,人工智能驱动的超细分就越发重要。正是这种引擎让我们能够为每一位受众创建无限的“小众”信息流(例如,“梦幻体育信息流”或“战术信息流”)。

这种整合海量孤立数据的能力正在从根本上改变竞争格局,使工作室能够在数月而非数年内发现内容趋势并做出商业决策。最终,随着市场趋于饱和,真正的商品将是信任,而信任只能通过持续提供高质量、个性化的粉丝体验来赢得。

作者:Jason Dachman
译自:https://www.sportsvideo.org/2025/12/18/svg-sit-down-google-clouds-anshul-kapoor-on-the-future-of-generative-production-in-live-sports/

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/63830.html

(0)

相关推荐

发表回复

登录后才能评论