智能眼镜可识别无声语言指令

元二 • 2023年4月8日上午11:47 • 行业资讯

一款名为EchoSpeech的低功耗可穿戴设备只需要几分钟的用户训练数据，就可以识别命令，并在智能手机上运行。

信息科学博士生Ruidong Zhang是“EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing”的主要作者，该论文将于本月在德国汉堡举行的CHI（Conference on Human Factors in Computing Systems ）计算机协会会议上发表。

“对于无法发声的人来说，这种无声语音技术可能是语音合成器的绝佳输入。它可以让患者重新发声。“Zhang谈到该技术在进一步发展中的潜在用途。

在目前的形式下，EchoSpeech可以用于在不方便或不合适说话的地方通过智能手机与他人交流，如嘈杂的餐厅或安静的图书馆。无声语音系统还可以与触控笔配对，并与CAD等设计软件一起使用，几乎完全不需要键盘和鼠标。

EchoSpeech眼镜配备了一对麦克风和比铅笔橡皮擦还小的扬声器，成为一种可穿戴的人工智能声纳系统，在面部发送和接收声波并感应嘴部运动。然后，深度学习算法实时分析这些回波剖面，准确率约为95%。

“我们正在将声纳转移到身体上，”信息科学助理教授兼康奈尔大学未来交互智能计算机接口（SciFi）实验室主任Cheng Zhang说。

“我们对这个系统感到非常兴奋。”他说，“因为它推动了该领域的性能和隐私。它体积小、功耗低且隐私性高，这些都是在现实世界中部署新的可穿戴技术的重要功能。”

他表示无声语音识别的大多数技术仅限于一组选定的预定命令，并要求用户面对或佩戴摄像头，这既不实用也不可行。而且还存在涉及可穿戴相机的主要隐私问题——对于用户和与用户互动的人来说。

像EchoSpeech这样的声学传感技术消除了对可穿戴摄像机的需求。由于音频数据比图像或视频数据小得多，因此需要更少的带宽来处理，并且可以通过蓝牙实时中继到智能手机，信息科学教授François Guimbretière说。“而且由于数据是在智能手机上本地处理的，而不是上传到云端。隐私敏感信息不会离开用户的控制。”

信息源于：康奈尔大学