智能眼镜可识别无声语言指令

一款名为EchoSpeech的低功耗可穿戴设备只需要几分钟的用户训练数据,就可以识别命令,并在智能手机上运行。

信息科学博士生Ruidong Zhang是“EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing”的主要作者,该论文将于本月在德国汉堡举行的CHI(Conference on Human Factors in Computing Systems )计算机协会会议上发表。

“对于无法发声的人来说,这种无声语音技术可能是语音合成器的绝佳输入。它可以让患者重新发声。“Zhang谈到该技术在进一步发展中的潜在用途。

在目前的形式下,EchoSpeech可以用于在不方便或不合适说话的地方通过智能手机与他人交流,如嘈杂的餐厅或安静的图书馆。无声语音系统还可以与触控笔配对,并与CAD等设计软件一起使用,几乎完全不需要键盘和鼠标。

EchoSpeech眼镜配备了一对麦克风和比铅笔橡皮擦还小的扬声器,成为一种可穿戴的人工智能声纳系统,在面部发送和接收声波并感应嘴部运动。然后,深度学习算法实时分析这些回波剖面,准确率约为95%。

图片

“我们正在将声纳转移到身体上,”信息科学助理教授兼康奈尔大学未来交互智能计算机接口(SciFi)实验室主任Cheng Zhang说。

“我们对这个系统感到非常兴奋。”他说,“因为它推动了该领域的性能和隐私。它体积小、功耗低且隐私性高,这些都是在现实世界中部署新的可穿戴技术的重要功能。”

他表示无声语音识别的大多数技术仅限于一组选定的预定命令,并要求用户面对或佩戴摄像头,这既不实用也不可行。而且还存在涉及可穿戴相机的主要隐私问题——对于用户和与用户互动的人来说。

像EchoSpeech这样的声学传感技术消除了对可穿戴摄像机的需求。由于音频数据比图像或视频数据小得多,因此需要更少的带宽来处理,并且可以通过蓝牙实时中继到智能手机,信息科学教授François Guimbretière说。“而且由于数据是在智能手机上本地处理的,而不是上传到云端。隐私敏感信息不会离开用户的控制。”

信息源于:康奈尔大学

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论