几十年来,我们一直试图让计算机理解我们。我们点击菜单,学习命令行语法,掌握键盘快捷键,并调整自身行为以适应机器处理信息的方式。一直以来,人们都认为人类需要按照技术的规则来与技术互动。如今,这种假设正在被彻底颠覆,语音正迅速成为人与技术之间的默认交互方式。换句话说,现在的关键在于技术理解人类,这并非因为语音技术新颖或时髦,而是因为它终于在企业级规模上具备了技术可行性。

IBM 与 Deepgram 的全新合作,将 Deepgram 的语音转文本和文本转语音功能集成到 IBM 的 watsonx Orchesstrate 中,凸显了这一转变。这标志着语音 AI 已从一项实验性功能发展成为企业关键基础设施要素,并迈入了一个成熟的阶段。
我们都知道语音界面并非新生事物,语音录制技术已经存在多年。然而,如今的不同之处在于,语音界面在企业环境的实际应用条件下展现出了更高的可靠性。
Deepgram 首席执行官 Scott Stephenson 表示:“企业部署需要一个实时平台,该平台必须准确、低延迟且能够大规模可靠运行。”
在此背景下,IBM 和 Deepgram 并没有将此视为在受控环境中展示足以进行演示的准确性,而是着眼于在实际的商业沟通场景中处理背景噪音、各种口音、真实对话和其他变量。
Deepgram 声称已处理超过 5 万年的音频,并转录了超过 1 万亿个单词。这无疑是一个令人印象深刻的数字,但也足以证明,要训练出能够可靠地处理人类实际说话方式各种差异的模型,需要多么庞大的规模。企业采用并非指技术在 70% 或 80% 的情况下都能正常工作,也并非指需要用户在安静的房间里仔细发音。而是指当技术变得“隐形”,在真实环境下始终如一地稳定运行时,企业才能真正采用。
与 Watsonx Orchestrate(IBM 的 GenAI 解决方案)的集成表明,IBM 认为它已经达到了可信度门槛,语音界面可以嵌入到企业工作流程自动化中,而不会产生比解决的问题更多的问题。
IBM 和 Deepgram 强调的一点是,他们的系统能够准确处理更广泛的语言和方言,包括数十种阿拉伯语和印度语变体,以及反映地域口音的声音。这承认了语音识别市场一直面临的一个根本性挑战,而这一挑战也阻碍了企业采用语音 AI。全球性企业运营涉及多种语言,而通用语音模型难以应对。例如,一个主要基于北美英语训练、无法可靠理解其他国家英语使用者的AI系统,对跨国公司来说实际上毫无用处。想必您一定看过《伯尼镇》的短剧,剧中一个语音控制的电梯无法识别苏格兰口音。
为什么这会如此具有挑战性?实现真正的多语言和多方言能力所需的投资巨大,这也是大多数组织无法自行构建的原因。IBM 选择 Deepgram 作为其首个语音合作伙伴,而不是尝试内部开发类似能力,这反映出 IBM 务实地认识到,语音 AI 需要专业知识和海量训练数据,而这对于大多数组织来说,即使是像 IBM 这样规模的公司,复制这些数据也不现实。这意味着语音界面可以部署到企业的所有员工和客户群体中,而不仅仅是其 AI 恰好能够理解的特定人群。
从基础设施到互动
从语音转文本到文本转语音,再到“完全语音转语音”的演进,标志着语音 AI 创造价值方式的一次重要变革。仅语音转文本功能即可实现转录、文档记录和分析的自动化——这是一种有价值但大多被动的语音采集方式。文本转语音功能使系统能够进行双向交互,从而实现自动回复和通知。如今,精准的语音转语音功能完善了整个流程,实现了真正的对话式交互,AI 无需文本中介即可聆听、处理并以语音方式做出回应。
这项技术的应用场景非常广泛,从听起来不那么机械化的自动化客户服务,到能够实时检测情绪和意图的通话分析,再到医疗保健领域中免提操作至关重要的语音数据录入,以及需要清晰传达复杂信息的金融服务应用,都离不开它。
IBM人工智能技术合作副总裁Nick Holda表示:“我们基于Deepgram API的watsonx Orchestrate集成,为IBM客户引入了全新的语音识别和转录功能,从而改进并现代化了他们的运营。此次合作旨在帮助企业加速其人工智能计划,并强化IBM的开放生态系统,为合作伙伴和客户带来更多选择和前沿的语音技术。”
Stephenson补充道:“通过将Deepgram嵌入到watsonx Orchestrate Agent Builder中,IBM客户可以在经过十多年开发和完善的实时基础上构建语音代理和语音工作流程。”
对“实时性”的强调并非只是一个流行语;它凸显了增强人类工作的技术与实现全新工作流程的技术之间的区别。例如,批量转录录音通话对于质量保证和培训很有用,但这与低延迟的实时转录相去甚远,后者能够实现精准的实时字幕、同声传译和对话中人工智能辅助。这种差异催生了一系列新的应用场景和价值主张。
此次合作反映了企业 AI 演进的更广泛趋势。AI 的最初应用浪潮主要集中在聊天机器人、文本生成和文档分析等领域,这些应用场景都以书面语言为主要交互界面。而 IBM 和 Deepgram 凭借其语音 AI 解决方案,正迈入 AI 的下一个前沿领域。构建 AI 驱动型工作流程的企业需要基础模型、语音功能、集成框架、安全控制、合规性基础设施以及特定领域的调优。很少有供应商能够可靠地提供所有这些企业级解决方案,而像IBM-Deepgram这样的合作表明,最佳且最可行的方案并非自行构建所有功能,而是将一流的功能集成到企业可以实际部署的统一平台中。
语音是人机交互的默认界面这一观点并非对未来的臆测,而是对现实的准确评估。语音界面如今已成为消费电子设备的标配,并将很快在汽车领域普及;它们在商业应用中也日益普及,并已成为无障碍功能不可或缺的一部分。因此,问题不在于企业是否应该支持语音界面,而在于他们应该以多快的速度部署这些界面。
当然,客户服务是最显而易见的应用场景,但语音界面对企业运营的各个方面都具有深远的影响,从无需人工干预的仓库管理到医疗保健领域的临床文档记录,再到需要将视觉注意力转移到其他方面的现场服务,以及无障碍设施等,不胜枚举。事实很简单,在很多情况下,语音操作更便捷、更快速、更安全,或者兼具这三者。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/65215.html