Adobe 扩大了与 Speechmatics 的合作,为其 Premiere 编辑软件提供云端级别的设备端语音识别功能。该公司表示,该功能可以在本地进行准确的设备端转录,并且功能强大,足以满足专业工作的需求。

自 2021 年 Adobe 成为首个在 Premiere 中集成语音转文本 (STT) 功能的非线性编辑平台以来,Speechmatics 一直是 Adobe 的合作伙伴。如今,Premiere 中新增的本地 STT 模型进一步增强了这项功能,在保证所有音频都保留在设备本地的同时,实现了接近云端的精度。
Adobe 推出 Premiere 语音合成功能时,由于隐私方面的顾虑,大型企业并非总能使用基于云的服务。Speechmatics 是少数几家提供设备端服务的供应商之一,这也是双方合作的关键原因。
五年过去了,这些隐私要求依然如故。随着本地语言管理(LLM)的兴起和数据主权问题的日益凸显,对安全部署的需求实际上有所增加。真正发生变化的是性能差距:Speechmatics 的全新设备端模型通过优化运行效率,使本地转录的准确度与云端转录不相上下。
Adobe解释说,这意味着,在内容公开发布之前进行处理的工作室、代理机构和制作公司现在可以随时随地无缝工作:在电影片场、在客户会议间隙、在飞机上——都能做到完全准确,无需依赖网络连接,也不会中断工作。
全新的 Speechmatics 设备端模型经过数百万小时的语音训练,能够高精度识别带有口音的语音、非母语人士的语音以及嘈杂环境(例如现场报道或电影拍摄现场)。因此,Adobe 表示,Premiere 中的全新设备端模型:
- 与云端准确度相比,误差在 5% 以内,该准确度已在近 1000 万字的各种真实世界数据上进行了评估。
- 处理1小时音频仅需约55秒
- 与最接近的竞争对手相比,领先优势显著,基于 Whisper 的创意解决方案性能提升了 12-16%。
- 可在 Windows 和 Mac 上运行,利用最新的 AI 加速技术,确保在各种硬件上高效处理,包括对最新 Mac M5、NVIDIA RTX、AMD GPU 和 Intel Mac 等较旧硬件的广泛硬件支持。
Speechmatics 设备端版本与 Speechmatics 云版本和 Speechmatics 本地部署版本一起,为独立软件开发商 (ISV) 和原始设备制造商 (OEM) 提供了一种专为数据驻留、离线功能或可预测成本等因素而打造的方案,使本地执行成为合适的架构选择。它以 C/C++ 库的形式集成到 macOS 和 Windows 系统中。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/66354.html