语音识别系列之脉冲神经网络特征工程

人工神经网络（Artificial Neural Network, ANN）中的单个人工神经元是对生物神经元的高度抽象、提炼和简化，模拟了后者的若干基本性质。得益于误差反向传播算法，网络权重可根据设定的目标函数得到有效地调整，ANN在视觉、文本、语音等领域都取得了巨大的成功，各种新奇的网络结构、训练策略层出不穷，ANN获得了蓬勃发展，大量科研及工程人才投入之中，强力推动了学术研究及工业应用。相较而言，比ANN更仿生的脉冲神经网络（Spike Neural Network, SNN）还处于研究和应用初期，类脑芯片及相关公司屈指可数，相关应用乏善可陈，但已露出了些微曙光。

一、ANN/SNN神经元的异同

在ANN中，单个神经元接收上层若干神经元的输入，加权和配以偏置，套以激活函数输出一个值传递给下层神经元。在SNN中，上层神经元发送来的并非一个数值连续变化的标量，而是神经脉冲时间串，提请注意的是：

(1)关于激活函数：在ANN中，默认上层神经元都是预激活的，下层神经元需要考虑全部有连接的上层神经元（除非经过后续的剪枝优化）。但在SNN中，即便上下两个神经元有突触连接，只要上层神经元未激发脉冲，下层神经元便不需考虑。因此，从计算效率上讲，SNN精打细算，而ANN存在冗余计算。
注：Dropout随机失活技术只是在ANN训练阶段使用，前向推理还是默认ANN中所有神经元都参与运算。

(2)关于输入/出值：在ANN中，神经元输入/出的均为连续变化的数值，但在SNN中，根据神经生物学的观察和数据积累，单个神经脉冲代表的膜电位的变化，其幅值相差不大且脉冲波形相似，因此可用二值化的0/1代替脉冲的有无。从数据存储的角度，SNN比ANN更经济。由于SNN输入/出的值均为离散二值时间序列，也省去了与权重的浮点运算操作，更加节省算量。

(3)关于偏置：ANN中神经元计算可配以偏置，功能是调整数据的值的分布中心，但在SNN中无偏置（因此在ANN与SNN的转换中，常要求待转换为SNN的ANN去除偏置再训练，本文不述）。

(4)关于权重：ANN/SNN中的权重，模拟的是生物神经元之间连接的强度，体现在突触数目（上下两个神经元之间不一定只有一个突触）和释放神经递质的多寡。

(5)异/同步计算：相比于ANN，SNN的脉冲串包含了时间维度，SNN以事件驱动的方式异步计算处理信息，而ANN执行的是同步计算。

(6)关于训练：由于脉冲串的离散和不可差分特性，误差反传算法在SNN的训练中不能直接应用，解决方法有ANN2SNN转换，代理梯度等方法，本文不展开。

(7)关于信号传递：在生物上，上层若个神经元传递电脉冲到树突，树突传递神经递质给下层神经元是需要消耗时间的，由于神经轴突不等长等因素也不可能做到严格同时到达，ANN和SNN模型实际上都忽略了传递过程的耗时和时间不同步。

二、SNN-KWS/ASR特征工程

将SNN应用于语音唤醒（Keyword Spotting, KWS）[1]甚或语音识别（Automatic Speech Recognition, ASR）[2]，首要问题即是如何将语音，或更广一点，音频转换为神经脉冲序列（后文将这种转换简称为Audio2Spike），它隶属SNN在音频领域的特征工程，决定了SNN-KWS/ASR的性能上限。

（1）物理模型

文献[1]中SNN-KWS使用的Audio2Spike转换方法见文献[3]，后者还附带了Github代码（以Python单元测试框架Unittest写就）。该转换方法对音频至脉冲的生物过程建立物理模型，考虑了鼓管、前庭管、蜗孔、卵圆窗、圆窗的流体动力学基底模型，将音频（声压）数据转化为基底膜在不同位置的运动速度数据，再由考虑了离子传输机制的毛细胞模型将运动速度数据转换为神经脉冲，最后由泄露积分发射（Leaky Integrate-and-Fire, LIF）神经元模型完成锁相。

注1：基底膜在耳蜗底窄而刚（对高频响应好），在耳蜗顶宽而柔（对低频响应好），此特性决定耳蜗实际上是一个分频器，耳蜗各处毛细胞对不同频率响应能力不同，连接毛细胞的神经纤维形成螺旋神经节后有序地将音调拓扑映像（Tonotopic map）转继到脑干中的耳蜗核。

注2：锁相（Phase locking）是指毛细胞发射的神经脉冲间隔，是该处最佳响应频率周期的整数倍，或说，毛细胞发射神经脉冲的时刻，对应声波某个特定相位。由于动作点位启动后存在不应期，持续约0.1~1ms，所以锁相现象一般存在于1kHz以下的声波（否则上一个脉冲还没结束，下一个还未能发射）。对于1kHz声波及其对应毛细胞激发的脉冲，锁相现象表明动作点位启动时间的精确度，必然高于1ms，正是这种精确度满足了声音定位的需求。

注3：对某一时间段内（对应时频图分析方法中的某一帧），不同频率声波映射到耳蜗的不同位置，称为位置编码，而时频块的值的大小，或说当前帧内该频点的声强，则对应发放神经脉冲的数目。
耳蜗将机械波转化为电脉冲的生物学过程，可详见[4-7]，四书原理插图，内/外毛细胞电镜照片均十分精美，由于潜在的版权问题，此处不截图。

基于物理模型的Audio2Spike转换方法的问题在于：

(a)模型参数较多且均是提前设定好的固定值，每一个参数的变动对最终效果的影响位置，合理变化范围也未知。

(b)模型转换得到的神经脉冲序列，与真实生物过程不一定一致，从编码角度来说也不一定是最优的（携带足够的信息，同时脉冲个数又少）。而且也无法组织真人实验来验证，毕竟几乎唯一的验证方法是主观的，需要借助人工耳蜗的电极播放脉冲，让人主观评价听感的好坏。但人工耳蜗总不可能对健听者植入，只可能对听障者做实验，即便实验证明不真实，也缺少模型参数调整的指导方向，几乎就是盲调。

（2）人工耳蜗物理转录

人工耳蜗可作为动态音频传感器（Dynamic Audio Sensor, DAS），记录人工耳蜗对音频数据的响应，将TIDIGITS音频数据集转录为N-TIDIGITS脉冲数据集[8]。

注：与听觉对应地，也存在动态视觉传感器（Dynamic Vision Sensor, DVS），也被称为事件相机（Event-based Camera），详见iniVation官网[9]。

基于人工耳蜗物理转录的Audio2Spike方法的问题在于，转录依赖人工耳蜗，因此转换规则受此耳蜗编码策略所限定，且转录效率过低（实录时长等于音频时长），不利于大规模数据的快速、灵活转换。再者，人工耳蜗电极数有限，难以得到精细的频率分辨率。

（3）编码算法虚拟转换

首先，各家人工耳蜗厂商必然掌握音频至神经脉冲的编码算法，且得到多年、大批听障者的反复验证和优化，可以说是目前最接近真实生理编码过程的算法，如MED-EL公司的“精细结构”编码策略[10]，但算法细节自然是技术机密。

其次，各独立研究组也有提出自己的编码策略。如2020年新加坡国立大学李海洲组的Zihan Pan等人[11]在保证时空动态特征以保证分类性能的前提下，利用心理声学的时间、频率掩蔽效应（不可听或不听不影响听感的部分不编码），减小脉冲产生个数（稀疏化），从而节省能耗，且宣称确信所提策略达到SOTA水平。但问题还在于未经大批听障者实验验证，不过要求研究组去做这种事情确实苛责了。

（4）自组织映射

2020年，李海洲的博士生吴冀彬在其博士毕业论文[12]中详细描述了自组织映射（Self-Organizing Map, SOM）做Audio2Spike的方法，输入是帧级别的FBank特征，训练时SOM的神经元相互竞争，选择突触权矢最接近输入特征的神经元，作为最佳匹配单元（Best-Matching Unit, BMU），BMU更新权矢以进一步接近输入矢量。同时，BMU周围的神经元也更新，但是更新比重按距离衰减，如此形成围绕BMU的神经簇，此为合作。通过竞争-合作训练机制，最终SOM中神经元的突触权矢服从输入特征矢量的分布，且形成拓扑结构。实验结果表明基于SOM提取的神经脉冲串，在与SNN的结合后取得了优异的分类性能。

参考文献：

[1] Bittar, Alexandre, and Philip N. Ganer. “Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition.” arXiv preprint arXiv:2212.01187 (2022).

[2] Wu, Jibin, et al. “Deep spiking neural networks for large vocabulary automatic speech recognition.” Frontiers in neuroscience 14 (2020): 199.

[3] Cramer, Benjamin, et al. “The Heidelberg spiking data sets for the systematic evaluation of spiking neural networks.” IEEE Transactions on Neural Networks and Learning Systems 33.7 (2020): 2744-2757.

[4] Kandel, Eric R., et al., eds. Principles of neural science. Vol. 4. New York: McGraw-hill, 2020.

[5] Purves, Dale, et al. Neuralscience. De Boeck Superieur, 2019.

[6] Luo, Liqun. Principles of neurobiology. Garland Science, 2020.

[7] Bear, Mark, Barry Connors, and Micheal A. Paradiso. Neuroscience: exploring the brain, enhanced edition: exploring the brain. Jones & Bartlett Learning, 2020.

[8] Anumula, Jithendar, et al. “Feature representation for neuromorphic audio spike streams.” Frontiers in neuroscience 12 (2018): 23.

[9] https://inivation.cn/

[10] http://www.medel.com.cn/Helps/jxjgbmc161.html

[11] Pan, Zihan, et al. “An efficient and perceptually motivated auditory neural encoding and decoding algorithm for spiking neural networks.” Frontiers in neuroscience 13 (2020): 1420.

[12] Jibin, Wu. Auditory Information Processing Using Spiking Neural Networks. Diss. National University of Singapore (Singapore), 2021.

作者：王佳杰