人工智能如何改变配音、翻译和本地化的游戏规则

人工智能配音是 NAB 2025 展会上最具活力的创新领域之一,但人工智能也在开辟令人兴奋的新领域,尤其是在音频翻译领域。为了找到人工智能能带来真正投资回报的具体应用案例,SVG 的撰稿人 Brian Ring 去到了拉斯维加斯的展会现场。他探讨了人工智能在配音、翻译和本地化领域的应用前景和作用。他的报告重点介绍了他发现的一些供应商和技术。

作者:Brian Ring,SVG 撰稿人
译自:https://www.sportsvideo.org/2025/04/23/op-ed-how-ai-is-changing-the-game-for-dubbing-translation-and-localization/

最初的单一语言媒体

三十多年前,我在加州大学伯克利分校获得了认知心理学的荣誉学位,还上过诺贝尔奖获得者 George Lakoff 的语言学课,他是名著《别想那只大象》(Don’t Think of an Elephant)的作者。我提供这些经验只是为了说明我接下来要说的话:在两年多前 ChatGPT 发布之前,如果你问我是什么将人类与其他动物区分开来,甚至与机器区分开来,我会很快回答:“语言”。

很难再继续这么看了。

首先,大约从 2018 年到 2022 年,自然语言处理等小型语言模型在改进机器翻译方面取得了巨大进步。人工智能本地化开始与人工配音工作流程交织在一起,变得更加高效和准确。

语言作为全球社会和文化的核心组成部分,可以更准确地被视为将人类与其他人类区分开来的东西。因此,先进的翻译工作流程——人工、机器和网络化,成为了今天大规模媒体全球化的推动力。

以Netflix为例,它是全球媒体领域的先锋。截至2024年第四季度,美国和加拿大约有 9000 万Netflix用户。但这一数字仅占该公司整体用户群的30%。欧洲、中东和非洲地区(EMEA)占据了33%,该地区涵盖24种语言。此外,中东地区有3.45亿阿拉伯语使用者;在拉美市场,西班牙语使用者(占总人口的60%)、葡萄牙语使用者(占30%)以及各种土著语言使用者(占10%)。

亚太地区至少还有另外10种主要语言,从普通话(使用人数超过11亿)到印地语(使用人数超过5亿),再到马拉地语(使用人数超过8000万),后者是该地区使用人数排名第十的语言。排在中间的是日语、旁遮普语、阿拉伯语、马来语和其他语言。

至少十年来,在这些国际市场不断增长的用户一直是美国大多数主要媒体公司增长的核心。而人工智能和生成式人工智能的应用将有助于进一步改善这些服务以及用户体验。

深度学习技术让人工智能更深入地参与配音

2022年,Transformer 和大型语言模型 (LLM) 蓬勃发展,与此同时,一家名为 Eleven Labs 的知名初创公司也应运而生。Eleven Labs 以最新的深度学习技术为基础,专注于自然语音和语音合成。

突然之间,文本翻译成其他语言的技术又向前迈进了一大步,进入了人工智能配音的领域。一个声音变成了20个。在语调、情感和音色上,它们听起来很相似,但仔细听:同一个人能流利地说日语?普通话?还是其他20种语言?

巴拉克·奥巴马用人工智能模拟的日语视频在 YouTube 上疯传。熟悉全球化经济格局的媒体高管们兴奋不已。与许多令人惊叹的技术不同,这项技术有一个显而易见的具体用例:只需轻轻一按,即可将您的频道、体育赛事或新闻广播(直播或录制)以 20 种地区语言进行直播,无需额外的人工操作,并且工作流程的复杂性极低。

从此,生成式人工智能时代最激烈的媒体科技争夺战之一拉开帷幕。在我25年的从业生涯中,我从未想过有哪个领域能像人工智能配音那样迅速发展。

人工智能本地化领导者和配音新秀

NAB 2025 带来了许多新技术和工作流程,旨在提升以非原文语言呈现“本地化”内容的体验。以下是我在展会现场遇到的一些公司和技术。

Deepdub ( www.deepdub.ai ) 是一家人工智能本地化公司,成立于 2019 年,总部位于特拉维夫。其技术能够同步情感语调、音频和视频,以 130 种语言提供引人入胜的类人翻译体验。

在 2025 年 NAB 展会上,Deepdub 推出了 Live,这是一款基于人工智能的配音解决方案,专为实时多语言广播而设计。据该公司介绍,其专有的 Emotive Text to Speech (eTTS) 技术可动态调整语音的音调、强度和能量水平,从而提供充满活力的体育评论、紧急突发新闻和沉浸式现场赛事解说。广播公司可以选择使用原配音者的克隆语音进行现场配音,也可以从 Deepdub 精心挑选的语音库中选择,这些语音库已预先获得广播和流媒体播放许可。

Deepdub Live 在具有企业级基础设施的 AWS Elemental MediaPackage 上运行,提供低延迟、帧精确同步,使所有类型的出版商能够以较低的成本进入全球市场,同时又不牺牲人类通常带来的真实性或情感影响。

Dubformer ( www.dubformer.ai ) 是一个安全的 AI 配音和本地化平台,成立于 2023 年,总部位于阿姆斯特丹。该公司最近筹集了 360 万美元的种子资金,用于推进其情感 AI 配音技术。据该公司称,该技术支持 70 多种语言,服务于 200 多家客户。

该公司坚持认为,AI 生成的配音存在许多生成式 AI 常见的中性、平淡的音调问题。许多配音技术听起来空洞或虚假。Dubformer 的情感迁移技术与克隆技术不同,它试图从源音频参考中迁移语音的细粒度、局部特征——语调、情感、语速——以更好地模仿语音的细微差别。

该公司服务于多种内容类型,包括纪录片、新闻、节目和旅游频道。它还提供现场配音解决方案和 400 多个配音素材库。

Lingopal ( www.Lingopal.ai ) 自称是语音翻译的黄金标准,在过去 12 个月中,它赢得了 Tennis Channel、NBA、Disney 和 Blackrock 等客户的青睐,在这一领域赢得了很高的评价。

该公司在 NAB 2025 上表现强劲:嵌入在 Ateme 展位的设备产品中;在过道对面的竞争对手 MediaKind 中占据中心位置;并夸耀其与仅隔几个展位的 FAST 渠道领导者 Amagi(网球频道的 FAST 提供商)的合作关系。

该公司于 2023 年在纽约雷哥公园成立,由雄心勃勃的创始人 Deven Orie 和 Casey Schneider 领导,最近从 DCM 和 Marquee Ventures 等知名投资者那里筹集了令人瞠目结舌的 1400 万美元 A 轮融资。

Lingopal 的语音转语音引擎利用了内部开发的六种基础 AI 模型。它可以将三个工作流程步骤合二为一:它不再需要先将语音转换为文本、将文本转换为译文,然后再将译文转换为语音,而是通过其单一可训练的深度学习平台,将一种语言的语音转换为另一种语言的语音。此外,它还具备转录、说话人检测和情感分析等功能。该公司表示,它可以处理各种特定类型的词汇,包括俚语、体育习语和多位说话人。

那么黄金标准是什么呢?虽然所有公司都声称自己是最好的,但 Lingopal 却在一项名为“BLEU”(双语评估测试)的全球标准测试中取得了高分。该测试衡量机器生成的翻译与人工创建的参考翻译之间的相似度。

当然,评估人工智能的准确性并没有万能的方法,但任何至少尝试为这一复杂任务找到客观北极星的供应商都值得一提。

Camb.ai ( www.camb.ai ) 是另一家拥有雄厚资金的 AI 配音初创公司。该公司在由 Courtside Ventures 领投的种子轮融资中获得了 400 万美元,最近又获得了 1100 万美元的 Pre-A 轮融资。Camb.ai 由一对父子于 2022 年创立,总部位于阿联酋,专注于为 100 多种语言、方言和口音提供原汁原味、富有细微差别的现场配音。

与 NAB 2025 展会上的其他供应商不同,Camb.ai 对其所使用的两种专有基础 AI 模型清晰透明。联合创始人兼首席技术官 Ack Prakash将它们描述为 MARS 和 BOLI。

MARS 是 Camb.ai 决定向 Hugging Face 社区开源的专有模型,我认为这本身就很了不起。MARS 只需极少的输入即可实现精准的文本转语音,包括语音克隆和语音合成。最新版本的 MARS6 Turbo 已在 Hugging Face 上开放测试。

BOLI 专注于翻译。除了专注于语音内容,它还能捕捉并传达说话者的原始语调和情感。只需不到三秒的录音输入即可完成。因此,该公司在口语化翻译、零样本跨语言语音克隆和跨语言时间同步等任务上表现出色。

Camb.ai 被选为美国职业足球大联盟 (Major League Soccer) 首届创新实验室成员,是澳大利亚网球协会 (Tennisship Australia) 2024 年 AO 初创企业计划的一部分,最近还被纳入康卡斯特体育科技加速器 (Comcast SportsTech Accelerator) 第五届年度成员。

DeepTune ( www.DeepTune.com ) 是一家总部位于纽约、由风险投资支持的初创公司,成立于 2022 年,专注于提供类似人类的文本转语音和 AI 配音服务。该公司已获得 300 万美元的种子轮融资,并得到了知名投资者 Alexis Ohanian、Gary Vaynerchuk 和 Seven Seven Six 的支持。

尽管该公司最初专注于为基于文件的娱乐工作流程提供基于SaaS的配音工具,但它已推出一款直播产品,目前正在与Sinclair进行测试,Sinclair于2月份宣布赢得该客户,这令人印象深刻。Deeptune正在帮助Sinclair推出实时、人工智能驱动的西班牙语本地新闻广播翻译,这在美国广播史上尚属首次。该试点项目已在巴尔的摩WBFF、圣安东尼奥KABB、西棕榈滩WPEC和拉斯维加斯KSNV等电视台开展,并通过各电视台的YouTube频道提供实时翻译的广播。

值得注意的是,部分 AI 配音内容如今已可在 YouTube 上观看。这令人印象深刻,但也引出了一个核心问题:如果我们真的能够实现出色的实时 AI 配音,那么该如何处理这些画面呢?下文将详细介绍。

SyncWords ( www.syncwords.com ) 是一家基于云的解决方案提供商,提供广播级的直播和点播 AI 字幕、字幕制作和配音服务,支持 100 多种语言。该公司成立于 2013 年,致力于解决字幕工作流程中的时间和同步问题。

在 2025 年 NAB 展会上,SyncWords 展示了超低延迟字幕,延迟仅为 1.4 秒。此外,它还推出了支持动态说话人切换和动态同步的 AI 现场配音功能。此外,首席执行官 Ash Shah还重点介绍了AI 配音正在为市场带来的革命性多语言工作流程。

该公司使用第三方 AI 进行语音、ASR 和翻译,并专注于使用现有的最佳技术创建简单的工作流程解决方案。

Verbit ( www.verbit.ai ) 是 VITAC 的新名称,VITAC 是历史最悠久、规模最大的供应商之一,为全球广播公司提供符合 FCC 和 EAA(欧洲无障碍法案)标准的字幕。其 Captivate 产品专为媒体、体育、新闻和娱乐等语音密集型行业而设计。它提供强大的体育词典以及涵盖 50 多种语言的全套字幕、转录、音频描述、翻译、笔记和配音解决方案。去年,Verbit 处理了超过 400 万小时的转录,服务于媒体、教育、广播、政府和其他行业的 3000 多家客户。

在 NAB 2025 上,Verbit 重点介绍了其 Captivate Clips 解决方案,该解决方案承诺以快速、经济且高度准确的方式对视频内容进行本地化和添加多种语言的字幕。

AI-Media ( www.ai-media.tv ) 于 2003 年在澳大利亚成立,是人工智能字幕和语言技术领域的全球领导者,其客户包括 25 多个国家的广播公司、政府、企业和教育机构。

在 2025 年 NAB 展会上,该公司推出了备受期待的 LEXI Voice,这是一款基于人工智能的实时语音翻译工具,并进行了一场令人印象深刻的演示。LEXI Voice 可以使用低延迟(约 8-12 秒)的合成语音将直播内容转换为多种语言,并且无需额外硬件。它支持 100 多种语言和可自定义的语音,并与 AI-Media 的字幕编码器网络集成。LEXI Voice 每小时收费 30 美元(另加标准 LEXI 字幕费用),可将实时翻译成本降低高达 90%。

产品开发与创新副总裁 Todd Vaccaro表示:“现在涌现出许多令人兴奋的用例。我们的想法是,不仅要翻译字幕、语音,还要翻译图形。这正是我目前正在努力探索的挑战。”

那么图形呢?

目前,业界正在努力解决这一难题。Anthropic 的 Claude 3.7 Sonnet 就是一个很好的例子,它采用了一个有据可查的计划,即使用 PaddleOCR 来构建一个系统,该系统可以摄取馈送、从下三部分提取文本、将其发送到 LLM 进行翻译,并以区域化 HTML5 的形式重新插入图形。

现在的诀窍是评估各种工作流程。遗憾的是,供应商最常见的回答是,客户需要自己进行测试(一家供应商还提到了一个人类语言学家网络,他们可以为此签约,人工智能至少为人类提供了几个新的工作岗位)。

Camb.ai 和 Lingopal.ai 表示自己的机器学习测试分数客观且令人印象深刻。虽然这些客观指标很有意义,但在以人为基础、以监管为基础的媒体世界里,这些细化的客观指标不足以检验质量和准确性,因为在这个世界里,错误可能会冒犯他人,导致广告商逃离,或因违反合规而产生可观的费用。深度学习领域的最新技术有时与人类世界的最新技术完全不同,这就是为什么人类评估和 “竞技场式 ”排行榜越来越成为驾驭这些水域的重要工具。

但说到自然、真实的人工智能配音,还有另一个因素,一个深奥的科学问题,即文本配音为何如此复杂。这就是所谓的 “语音韵律”(prosody),指的是基本音或音素之外的语音节奏和语调方面。

韵律包括重音、语调、节奏、速度、停顿和音高变化等模式,在所有口语中都能传达意义、情感和意图。它有助于区分问题、陈述和命令。它传达情绪状态和态度(兴奋、怀疑、讽刺)。通过音调的变化,它还能在对话中发出 “轮流 ”的信号。

在这里,我们可以结束讨论了。有了”语音韵律“这个新术语,感觉就像人一样。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/57744.html

(0)

相关推荐

发表回复

登录后才能评论