语音识别系列之基于脉冲神经网络的语音唤醒

语音唤醒（Keyword Spotting，KWS）是较为初级的语音识别任务，在2014年陈果果的工作[1]后，学界兴起大量研究，业界也获普遍应用，如智能家居（音箱、TV）、智能穿戴（TWS耳机、手表）、智能座舱等。KWS参、算量远低于ASR，可离线工作。作为智能语音系统的入口，KWS常要全天候（Always On）运行，若应用场景是功耗敏感、内存受限的可穿戴设备，则参、算量要求更为严苛。脉冲神经网络（Spiking Neural Network, SNN）作为所谓的第三代神经网络，相比于人工神经网络（Artificial Neural Network，ANN）有功耗及内存优势，近年来逐渐拓宽应用。在音频领域，场景分类和KWS较早获得SNN应用。

一、历史工作

2018年，加州大学圣迭戈分校的Bruno U. Pedroni等人[2]在TIMIT数据集中挑选出greasy, oily, water, carry, dark, wash六个词语做KWS，余下词、静音及噪声作为其他类别，共七分类。文中SNN及做对比之用的ANN均采用前向全连接结构，SNN又分为基于速率的SNN（RBSNN），和基于时间的SNN（TBSNN），前者可使用映射方程将预训练的ANN参数“翻译”给RBSNN，后者则需要其他方法训练。RBSNN选用输出层脉冲数最多的类别作为胜出类别，TBSNN则是脉冲最先到达的类别。由于脉冲神经元激活与否可用0/1二进制代替，因此与（浮点）权重的乘法（Multiply-and-Accumulate operations，MAC）可简化为权重自身的加法（Accumulate，AC）。结果表明，RBSNN及TBSNN与ANN性能基本相当，但RBSNN的计算代价为ANN的91%，TBSNN仅为ANN的16%，这是因为TBSNN依据脉冲间隔编码，相比于依据同等时间内脉冲个数编码的RBSNN更为“优雅”高效。该工作指出未来的优化方向是基于TBSNN做网络结构优化，即将前馈全连接结构优化为卷积结构。

2020年10月，新加坡国立大学李海洲组的Emre Yilmaz等人[3]宣称首次将深度卷积结果应用于SNN-KWS，该网络使用串联学习（Tandem Learning）训练，数据使用Hey Snips及Google Speech Commands数据集，加噪使用MUSAN数据库，加噪信噪比-5至10 dB。实验结果表明，在各测试条件下，SpikeCNN-KWS的ROC性能与CNN-KWS基本相当或略有优势，在类脑芯片上能耗仅是后者的15~30分之一。该工作代码开源。

时隔不久，同年11月，法国图卢兹大学的Thomas Pellegrini等人[4]将扩张卷积引入SNN-KWS，且施加关于SNN各层脉冲数的正则项，以求神经脉冲激发尽可能稀疏，以进一步节省能耗。训练使用替代时间反传（Back-Propagation Through Time with Surrogate Gradient，BPTT with SG）法。该工作代码开源，且宣称将尝试SNN-ASR。

2021年，时识科技（SynSense）[5]瑞士中心的研发副总Sadique Sheik和Philipp Weidel受WaveNet结构的启发，指出脉冲神经元的膜电位积累机制，同WaveNet中扩张时间卷积之前存在一定的相似性，因此提出具有一组固定膜时间常数和简单前馈结构的WaveSense来替代WaveNet做KWS。结果表明在Aloha, Hey Snips, Google Speech Commands数据集上均优于前述SNN-KWS工作，且逼近ANN-KWS的SOTA性能，所提SNN含脉冲神经元864个，权重参量18k。

2022年7月，国内另一家类脑芯片公司九天睿芯[6]发布智能语音芯片ADA100，宣称其感、存、算语音唤醒方案支持预设多大30个关键词，还支持用户提取特征做自定义语音唤醒，但不确定其方案是否基于SNN。

同年月，荷兰Yin Bojian及华为Guo Qinghai等人[7]使用含注意力机制的循环脉冲神经网络Attention-RSNN做流式KWS，宣称在Google Speech Commands v1&v2数据集上，性能优于GRU基线和时识科技的WaveSense。

2023年1月，瑞典吕勒奥理工大学嵌入式智能系统实验室的Mattias Nilsson等人[8]基于脉冲时差编码器和突触兴奋/抑制单元对音频脉冲串做更深层次的信息抽取，所抽取的信息组合后接线性分类器，对TIDIGITS数据集分类。此架构有别于先前SNN-KWS的工作，遗憾的是，未与其他工作进行性能对比。

2023年2月，比利时根特大学的Sun Pengfei等人[9]指出当前SNN在音频领域应用时的局限性——训练时大多只关注突触权重，而少关注脉冲传递过程中的轴突延迟，因此提出在训练中逐层调整轴突延迟上限，具体做法是先对网络预训练几个epoch得到初始的延迟，再使用滑动窗口大小和上限比例来校准上限并微调延迟。训练使用SLAYER框架，在SHD和NTDIDIGITS数据集上，和其他工作相比，以最少的参数取得最佳分类准确率超过。

二、讨论

(1)在学界的研究论文中，KWS的性能指标主要以分类准确度为主，多词（唤醒词+命令词）常以混淆度矩阵展示分类性能。但在业界，KWS性能主要表现方式是某时段（如每天）内误唤醒1次下的唤醒率，误唤醒测试由各团队在自收集的语料库上测得。工业界的表达自然更为直观。KWS本质还是一个分类问题，分类越精准，业界指标也会更好。由于学界没有一个各方共用的误唤醒测试数据集，因此给出分类准确率即可。

(2)目前SNN还不成熟，“入局”的科研人才和工程人员太少，训练框架不少却没有一个占主导地位，甚至背后的理论都还在摸索实践中。目前，SNN-KWS论文发表者多在学术领域，不了解业界先进水平（实际上，产业界基于ANN-KWS路线的语音唤醒方案已经做到参、算量均极小的水平，且KWS问题的核心在训练策略、击中策略的设计，而不在网络的具体实现形式），且原本也不做KWS，只是为了验证SNN可应用于KWS，故而基于SNN路线的KWS也并没有优化到极致，未来还有很大的发展空间。

(3)虽然目前SNN的训练还比较困难，应用有限。但回顾ANN的发展历程，在误差反传出现之前，ANN不也同样如陷泥潭、裹足不前么？因此还是应当对SNN的发展抱有期待，它毕竟是人类对脑工作机制的模仿（即便现在还很拙劣），是朝着轻量、节能的路线上的努力探索。在当下以ChatGPT为代表的大功耗、大参量模型搅动学界、业界乃至世界的时代狂热背景下，持续投入SNN发展的科研及工程人员，仿佛背离时代主流在坐冷板凳。但当初DNN的先驱如Hinton等人，不也同样坐了好久的冷板凳么？

参考文献：

[1] Chen, Guoguo, Carolina Parada, and Georg Heigold. “Small-footprint keyword spotting using deep neural networks.” 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014.

[2] Pedroni, Bruno U., et al. “Small-footprint spiking neural networks for power-efficient keyword spotting.” 2018 IEEE Biomedical Circuits and Systems Conference (BioCAS). IEEE, 2018.

[3] Yilmaz, Emre, et al. “Deep convolutional spiking neural networks for keyword spotting.” Proceedings of INTERSPEECH. 2020.

[4] Pellegrini, Thomas, Romain Zimmer, and Timothee Masquelier. “Low-activity supervised convolutional spiking neural networks applied to speech commands recognition.” 2021 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2021.

[5] Weidel, Philipp, and Sadique Sheik. “WaveSense: Efficient Temporal Convolutions with Spiking Neural Networks for Keyword Spotting.” arXiv preprint arXiv:2111.01456 (2021).

[6] https://www.52audio.com/archieves/126158.html

[7] Yin, Bojian, et al. “Attentive decision-making and dynamic resetting of continual running SRNNs for end-to-end streaming keyword spotting.” Proceedings of the International Conference on Neuromorphic Systems 2022. 2022.

[8] Nilsson, Mattias, et al. “A Comparison of Temporal Encoders for Neuromorphic Keyword Spotting with Few Neurons.” arXiv preprint arXiv:2301.09962 (2023).

[9] Sun, Pengfei, et al. “Adaptive Axonal Delays in feedforward spiking neural networks for accurate spoken word recognition.” arXiv preprint arXiv:2302.08607 (2023).

作者：王佳杰 | 来源：21dB声学人