一段时间以来,企业技术供应商一直在努力探索数字视频和 AI 功能的交叉点。本月早些时候,视频技术独角兽 Synthesia 的产品更新强调了一个日益现实的事实:融入 AI 的企业不会只是文本领域。
在10月1日发布的视频制作平台3.0版本中,Synthesia 宣布将启用“视频代理(video agent)”功能,这些屏幕化身能借助大语言模型或专有数据库,实时响应用户语音指令。
此次升级标志着 Synthesia 将多项技术有机融合,成为迄今为止推动“多模态 AI”进入主流市场的最逼真尝试。

如今,大多数用户与 AI 数据库之间的关系,就如同“短信”关系。我们在应用程序或网页界面中输入提示,就能在同一媒介上获得回复。在过去一年左右的时间里,我们通过开发软件“代理”来增强这种短信关系,这些代理可以自动发起这些文本请求。
有了“视频代理”,这个 AI 查询和响应周期就发生了变化:用户与视频代理化身交谈,最终的代理输出通过屏幕上同一化身的语音传递。
例如,Synthesia 在其产品发布会上表示,其视频代理可用于自动化销售代表的培训。销售代表在练习销售电话时,与屏幕上的自动“视频代理”进行互动,该代理会扮演潜在客户的角色。在会话结束时,该代理会根据销售代表的表现提供评分反馈。
确实,将各种技术融合成“视频代理”的形式,可能会引发许多人对新型 AI 应用的思考。例如,在学校环境中进行一对一辅导的机会就很大。同样,许多组织也有可能在客户服务应用中发现这些功能的用武之地。
本质上,视频只是收集数据和使用代理输出的另一种格式。随着用户与数据库的交互越来越多,他们有时会希望以文本格式提供信息。在其他时候,他们会发现聆听AI输出或与视频角色互动更有效率。Synthesia推出其视频代理,只是加速了利用AI驱动的数据库实现多种互动模式(文本、音频或视频)的进程。
从许多方面来看,视频代理堪称 AI 解决方案的罗夏墨迹测试。人们会倾向于选择最契合自身需求的应用场景。随着时间推移,开发出能满足各类商业应用需求的视频代理将成为可能。
诚然,Synthesia 本月的产品更新并非开创性突破。从大型统一通信供应商到 Synthesia 在虚拟形象领域的竞争对手,业内参与者多年来一直在公开探讨通过屏幕虚拟形象分发实时 AI 输出的结合方案。事实上,我们有理由确信:绝大多数(若非全部)统一通信解决方案供应商都在积极推进视频智能助手功能的开发。
到目前为止,实现此类视频代理的主要障碍在于实现这些功能所需的计算处理能力成本。每个应用程序都需要 AI 来处理提示答案,并生成传递这些答案所需的视频虚拟形象界面。因此,交付视频代理的成本可能远远超过其创造的商业价值。截至本文撰写时,尚不清楚 Synthesia 是否已采取措施来颠覆这一经济等式。
然而,计算处理能力成本的下降终将平衡这一平衡。问题在于,现在是否就是那个时候,还是 Synthesia 只是在市场成熟之前操之过急,趁热打铁,炒作一番。
我唯一可以肯定的是,任何供应商(包括 Synthesia)在推动视频代理功能作为独立应用程序的普及方面都将面临艰巨的挑战。在流媒体和网络直播的鼎盛时期,企业用户的行为模式一直犹豫不决,不愿接受那些存在于他们常用工作流程之外的视频解决方案。
这种现实一直延续到今天。IntelliVid Research 在 2025 年对 1,201 名员工进行的一项调查显示,75% 参与过工作视频制作的员工认同以下观点:“视频 AI 解决方案在集成到现有软件工作流程中时最有用。”
我将这些结果解释为,那些最倾向于在企业中使用视频的人希望能够在他们已经使用的业务生产力平台(例如 Microsoft Teams)中访问这些功能。
Synthesia 或许认为自己不受视频技术应用这一传统现实的影响。该公司自称年营收超过 1 亿美元,这足以让该公司达到“逃逸速度”,成为一个“重心”平台。
话虽如此,我的直觉是,Synthesia 团队会非常乐意兑现其芯片并出售给微软的想法。这桩联姻是合理的。微软可以利用视频创作领域的先机,而 Synthesia 则需要在像 Microsoft Teams 这样成熟的业务工作流程中占据一席之地。
作者:Steve Vonder Haar
原文:https://www.nojitter.com/virtual-agents/how-ai-video-agents-will-transform-enterprise-training
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/changjing/62327.html