基于时延光子储备池计算的人体动作识别 | 开超,李璞,杨毅等

研究意义

人类动作识别（HAR）在现代工商业中具有广泛的应用，例如视觉监控、自主导航、视频检索、人机交互等等。然而，由于其建模和特征表示从二维空间扩展到三维时空，高效且精确的HAR在计算机视觉领域仍然是一项具有挑战性的任务。

随着人工智能（AI）的发展，神经网络，特别是深度学习神经网络（DNN）在执行HAR任务中取得了成功。然而，这些结构日益复杂的DNN需要大量的计算资源才能实现较高的识别精度。这就自然引起了人们对用于HAR的神经网络的轻量级替代方案的需求。

本文工作

为了解决上述问题，我们提出了一种基于时延光子储备池计算的HAR方案，如图2所示。具体地说，我们使用具有超短延迟反馈的半导体激光器作为储备池来执行HAR。延迟反馈结构赋予了时延光子储备池短期记忆能力。此外，我们使用来自多个延迟时间的输出来定义虚拟节点，使得虚拟节点的总数可以在有限长度的反馈腔内大幅增加。在研究了储备池超参数（即样本量、虚拟节点量、Mask标准差、响应激光器的电流、注入强度、反馈强度和频率失谐）对识别性能的影响后，我们通过数值证明，使用我们的方法可以实现高达98%的HAR识别准确率。与具有代表性的DNN相比，其准确率处于相同水平。考虑到其简单的结构和紧凑的尺寸，我们认为该方法可能是计算机视觉领域应用中一个有前途的传统神经网络的替代方案。

本文的创新点如下：

（1）在经典的KTH人体动作数据集上实现了98%的识别正确率，达到了本领域的先进水平。

（2）提出的方案具有高能效，易集成的特点。

图2中，D-laser, 驱动激光器; PM, 相位调制器; VOA, 可变光衰减器; FC, 50:50 光纤耦合器; OC, 光环形器; R-laser, 响应激光器; PD,光电探测器. 我们从原始视频中逐帧地提取特征以获取特征描述符h(t), 并将特征描述符h(t)和混沌掩码信号相乘. 随后将相乘所得到的信号通过相位调制器注入到储备池中. 最后读取响应激光器的瞬态响应并计算得到最终的结果。

实验结果

本文所提出的方案在KTH数据集上进行了验证。时延光子储备池的识别性能与其系统状态密切相关。我们研究了七个超参数对其识别准确率的影响，分别是样本量、虚拟节点数量、Mask标准差、半导体激光器的注入电流、注入强度、反馈强度和频率失谐。如图3所示, 分别显示了训练样本量、虚拟节点数和Mask标准差对识别精度的影响。它们的最佳值分别是15, 900和0.3。

图3 识别错误率ER与(a)样本量,(b)虚拟节点量,(c)混沌掩码信号的标准差的相关性

图4 (a) 给出了识别性能对偏置电流IRL的依赖性。我们发现，随着响应激光器偏置电流的增加，系统性能首先缓慢提高，然后下降。IRL=1.35Ith时，识别率错误率最低，为3.67%。图4 (b) 显示了R激光器的输出状态分叉图。当IRL偏置在1.35Ith时，响应激光器处于混沌区和准周期区之间的边界附近。在这种情况下，系统可以提供丰富的非线性瞬态响应。

图4 (a) 响应激光器的偏置电流对识别错误率ER的影响， (b) k_inj = 0.4, κ = 0.06, Δ_f= -10 GHz时, 随偏置电流I_RL增大的分岔图

图5描述了注入强度κinj的相关影响。从图5(a) 中可以观察到，随着注入强度的增加，识别错误率首先降低，然后收敛到一个稳定值。当注入强度设置为0.5时，可以获得2.67%的最低错误率。从图5(b) 中的相关分叉图中，我们可以确定，当注入强度设置为0.5时，响应激光器工作在注入锁定状态。对于同时受光注入和光反馈影响的时延光子储备池来说，来自驱动激光器的光注入是保持响应激光器处于动态稳定状态的必要条件。

图5 (a)注入强度对识别错误率ER的影响， (b) I_RL = 1.35I_th,κ = 0.06, Δ_f = -10 GHz时,随注入强度k_inj增大的分岔图

图6 (a) 显示了反馈强度κ对识别性能的影响。当κ等于0.1125时，可以获得更低的ER率。从相关的分叉图 [图6 (b)]中，我们可以发现，随着反馈强度κ的增加，响应激光器的输出状态在经过准周期状态之后进入混沌状态。当κ为0.1125时，R激光器在混沌状态下工作，可以提供丰富的非线性动态响应。在优化反馈强度κ后，我们最终可以将识别错误率降低到2.33%。

图6 (a)反馈强度对识别错误率ER的影响， (b) I_RL = 1.35I_th,k_inj = 0.5, Δ_f= -10 GHz时,随反馈强度κ增大的分岔图

图7(a)显示了识别性能对频率失谐Δf的依赖性。从图中，我们可以看到ER的变化趋势近似对称于频率失谐Δf = -15GHz处，其中最低识别错误率为2%。通过观察相关的分叉图[图7 (b)]，我们发现当响应激光器在混沌区域的边缘工作时，获得了最低的识别错误率。

图7 (a) 频率失谐对识别错误率ER的影响， (b) I_RL = 1.35I_th,k_inj = 0.5, κ = 0.1125时, 随频率失谐Δ_f变化的分岔图

最终，通过分析这些超参数的影响，我们选取了一组最佳超参数。在此情况下，我们的时延光子储备池取得了平均98%的识别正确率，具体结果如下表所示。

作者：Chao KAI, Pu LI, Yi YANG, Bingjie WANG, K.Alan SHORE & Yuncai WANG. Human action recognition using a time-delayed photonic reservoir computing. Sci China Inf Sci, doi:10.1007/s11432-022-3710-6