2022谷歌语音 AI 年度回顾

海外观察 • 2022年12月31日下午12:07 • 行业资讯

几乎在任何地方，基于人工智能的语音技术在 2022 年继续蓬勃发展，从谷歌趋势中衡量的兴趣增加，到表明语音模式可以帮助检测某些疾病的令人惊讶的医学进步，再到用户控制的各种数字服务和设备他们的声音。

在谷歌云，我们用了 2022 年的时间为我们的客户提供最好的谷歌语音人工智能和自然语言技术，他们将这些技术用于从帮助促进儿童健康发展的机器人到基于数据的客户服务改进等用例来自电话、语音邮件和其他语音交互。

正如 Google Cloud 云 AI 和行业解决方案总经理 Andrew Moore 所探索的那样，我们预计语音 AI 技术和相关进步将在未来几年对商业和世界产生重大影响。为了确保您在进入 2023 年时了解所有最新消息，以下是我们去年发布的一些最值得注意的 Speech AI 公告：

语音转文本 (STT) API 的可视化界面

2 月，我们宣布了STT API的可视化用户界面，它支持 120 种不同本地变体的 70 多种语言。STT API 允许开发人员利用 Google 在自动语音识别和转录技术方面多年的研究，将语音转换为文本，并且通过可视化界面，API 更加直观，帮助更多开发人员更轻松地将这项技术用于他们的项目。我们在 4 月庆祝了该 API 的五周年纪念，并指出该 API 每个月处理超过 10 亿分钟的语音，足以转录历史上所有美国总统就职演说超过 100 万次。

支持文本转语音 (TTS) API 中的自定义语音

3 月，我们宣布在我们的TTS API中普遍提供自定义语音功能，它可以让客户从文本中创建自然的、类似人类的语音。Custom Voice 让客户可以使用自己的录音来训练语音模型，从而为用户提供独特的体验。客户只需直接在 TTS API 中提交录音，其中包括确保创建高质量模型的指导。

改进的 STT API 模型

4 月，我们推出了适用于 STT API 的最新模型，该模型基于一种使用单一神经网络的新方法——而不是用于声学、发音和语言训练的单独模型——并将转换器模型与卷积层相结合。结果显着提高了 STT API 支持的数十种语言和方言的准确性。12 月，我们添加了更多语言的最新模型，包括保加利亚语、瑞典语、罗马尼亚语、泰米尔语、孟加拉语等，使最新模型的语言总数超过 45 种。

用于自然语言 (NL) API 的大型语言模型 (LLM)

秋天，我们更新了NL API，使用新的内容分类模型，该模型基于 Google 对 LLM 的开创性研究，其中包括LaMDA、PaLM和T5等项目。得益于尖端语言建模方法的集成以及更新和扩展的训练数据集，内容分类支持 1,000 多个标签和 11 种语言：中文、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语和荷兰人。

文字转语音 Neural2

在 Google Cloud Next ’22 上，我们宣布推出下一代 TTS 语音Neural2。这些语音建立在 Google 创建的PnG NAT技术之上，我们使用该技术为我们的自定义语音产品提供支持。Neural2 语音将客户从自定义语音中的 PnG NAT 看到的相同改进带到了默认语音。12 月，我们全面推出了 Neural2，现在可以使用以下语言提供默认语音：英语、法语、西班牙语、意大利语、德语、葡萄牙语和日语。

即使没有网络连接也可以通过 Speech On-Device 提供语音服务

在 Google Cloud Next ’22 上，我们让 Speech On-Device 普遍可用，消除了在没有网络连接的情况下尝试访问语音服务的挫败感，例如在远离覆盖范围的情况下或发生网络中断时。正如 Ryan Wheeler（Toyota Connected North America 机器学习副总裁）在 Google Cloud Next ’22 会议上讨论的那样，丰田已经在使用 Speech On-Device。