基于Speech框架实现APP智能语音交互的解决方案

使用手机的语音框架可以识别录制或现场音频中的口语单词,系统的键盘的听写也支持使用语音识别将音频内容翻译成文本。本文透过和家亲上的实践应用案例,介绍基于Speech框架实现APP智能语音交互的解决方案。

作者:李科林
单位:中国移动智慧家庭运营中心

01 概述

系统的语音框架无法被外部开发者使用,但是苹果基于机器学习能力为开发者开放了具备类似能力行为的Speech框架,你可以在自己开发的APP应用程序中通过调用开放的接口能力,就可以实现类型键盘听写功能。例如,你可以使用语音识别来识别语音命令或在应用程序的其他部分中处理文本听写。你可以在许多语言中执行语音识别,但每个SFSpeech对象在一种语言上运行,并且Speech框架还依赖于苹果的服务器进行语音识别,要求设备始终连接网络。

02 Speech框架:类结构

基于Speech框架实现APP智能语音交互的解决方案

03 Speech框架:语音识别过程

基于Speech框架实现APP智能语音交互的解决方案

Speech框架为快速识别语音提供了统一的接口能力,使用方便,但也存在一些需要注意的地方,具体如下:

处理由语音识别限制引起的故障:语音识别是基于网络的服务,单个设备可能在每天可以执行的识别数量方面受到限制,并且每个应用程序可能会根据其每天发出的请求数量进行全局限制。

音频持续时间1分钟的限制:语音识别对电池寿命和网络使用造成相对较高的负担。为了最大限度地减轻这种负担,该框架会停止持续时间超过1分钟的语音识别任务,此限制类似于与键盘相关的听写限制。

不要对私人或敏感信息进行语音识别:不要发送密码,健康或财务数据以及其他敏感语音进行识别。

04 Speech框架:和家亲上的实践应用

Speech框架在和家亲上的主要应用在智能语音客服和智能管控上,通过Speech框架,快速实现语音输入到内容文本的转换显示,极大提高了交互体验效果。和家亲应用Speech框架实现设备语音管控的主要方案逻辑流程如下图所示👇

基于Speech框架实现APP智能语音交互的解决方案

主要的流程步骤如下:

1️⃣APP本地构建匹配检索数据表,包括管控动作语义匹配检索表、设备或活动语义匹配检索表、自定义语音管控指令匹配检索表、默认语音管控指令匹配检索表。

2️⃣应用Speech框架能力接口,将app采集的语音输入转换成文本内容,并在APP交互页面上显示。

3️⃣将步骤2中转换好的文本内容与本地构建的自定义语音管控指令匹配检索表和默认语音管控指令匹配检索表分别进行文本整体相似度计算排序,分别找到找到一级相似管控指令及其置信度,三级相似指令及其置信度。

4️⃣将步骤2中转换好的文本内容进行分词处理,提取文本中的动词、名词、地名、产品名等。

5️⃣将步骤4中的动词、名词等分别与管控动作语义匹配检索表、设备或活动语义匹配检索表进行相似度计算匹配,找到最优的动作匹配结果和最优的活动或设备匹配结果,将动作和活动或设备组合形成二级管控指令及其置信度。

6️⃣将上述的一、二、三级管控指令按照不同权重和其对应的置信度结果进行优先级排序,并将排序结果返回显示在交互页面,等待用户确认最终指令。

7️⃣执行最终管控指令。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论