基于神经网络的空间音频渲染技术探析

1 前言

如何给用户带来更加真实的沉浸体验，是元宇宙音频技术研究的核心使命。空间音频(Spatial Audio)也称三维声，正是肩负着这样的使命应运而生，空间音频不仅能实现三维的声音音效，而且能够通过提供沉浸式的音频环境，配合虚拟现实视频技术给大脑提供接近真实环境的音视频体验。空间音频带来的体验革新体现在许多方面，比如空间音频能够帮助我们在一个多人对话的场景中（经典的鸡尾酒会问题），毫不费力的将注意力集中在某一个人身上。研究表明（Hawley, 2004），对于日常社交性信息传递来说，相比较视觉，听觉往往起到更为重要的作用，这是因为：1）听觉刺激带来的大脑反应要远远快于视觉刺激所带来的大脑反应（Jose & Praveen, 2010）2）听觉能够同时感应360度空间，而视觉只能在某一个时刻集中在一个方向上。

空间音频涉及到许多技术环节，如制作，传输，渲染呈现等。本文主要探讨其中的渲染呈现环节——音频的双耳化渲染技术。当前主流的空间音频双耳化技术为传统的数字信号处理技术，即通过建立一个线性时不变系统（LTI：Linear time-invariant）来实现空间音频的渲染，该系统将信号与HRTF进行卷积，同时重建混响以及噪声环境来实现音频的空间化呈现。这种技术路线具有易懂，相对容易数学建模的优点，不足之处在于真实世界里，声音的传播往往具有非线性效应，一个线性时不变系统是没有办法完全逼近一个非线性系统。具体表现就是，LTI系统对于一些动态的场景里的空间音频渲染，在仿真度上与真实的声音仍有相当的差距。

2 系统框架

正是因为LTI系统以上的局限性，使用神经网络来进行空间音频渲染受到越来越多的关注。图3是一个典型的使用神经网络来进行空间音频渲染的系统框架。

该系统包含两大模块：

l神经时间规整模块：该模块将单通道输入信号规整成双通道信号，时间规整补偿了粗略的时间效应，以及声源到听者双耳间的距离差造成的时间差效应。

l卷积神经网络模块：该模块包含一个N层的堆栈，每一层都是条件超卷积，然后是正弦激活。这种时间卷积网络模拟了由房间混响、头部和耳朵的形状或头部方向的变化引起的细微影响。

3 关键技术介绍

3.1 时间规整

在语音信号处理中，同一个字母，由不同人发音，或者同一个人不同时间来发音，时间长短都有可能不一致，但信号相似。为了方便后续处理，需要用一个函数拉长或者缩短其中一个信号，使得它们之间的误差达到最小，具体实现手段有很多，最为常用的是动态时间规整(DTW)。DTW可以概括为，寻找一个扭曲场（将源信号扭曲到目标信号，从而使两信号匹配时的累计距离最小化

‍

在空间音频渲染方案里，我们可以定义声源和听者的空间位置和方向为约束条件，时间规整模块根据这样的约束条件来寻找扭曲场。

3.2 条件超卷积

处理条件时间卷积的主要方法是将输入信号和3.1章节所述的条件信号相加组合，作为条件输入的函数，

和是小型的卷积超网络，它们接收作为输入，并分别预测卷积权重和偏置作为输出。因此，卷积层的输入权重和偏置也会随着时间的推移而变化。

3.3 回归损失函数构建

如果在时域上按照均方误差准则直接构建回归损失函数，模型收敛后输出的语音质量会相比较原始语音有一定程度上的质量损伤。为了解决类似的问题，近年来相当多的研究从频域着手构建损失函数。另外，从音频信号处理的角度来看，mono音频信号对相位信息并不敏感，但是双耳空间音频却恰恰相反，这是因为两耳相位信息差是人耳感知方位的重要线索之一，研究表明（Brown Duda, 1998）,两耳能感知最小10us的时间差，所以如何构建合适的回归损失函数对于双耳空间音频的生成至关重要。

下面介绍一种比较典型的一种回归损失函数构建方法，即在复频域上来构建回归损失函数，如下：

这里以及为对应信号的傅里叶变换系数，同时携带幅度信息以及相位信息。将距离记作，考虑到模型的容量有限，而且训练数据通常只能拟合到L2-loss。如果这个不够小，即使信号的振幅可以被很好地建模，但相位误差仍然很大。为了克服这个问题，可以在损失函数中加入一个明确的相位项

其中是音频信号的短时傅里叶变换。

4 空间音频效果评估

区别于传统音频的质量评价，空间音频不仅仅要考虑音频质量，还要考虑空间化和真实度等维度的评估。与此同时，空间音频的渲染技术实现复杂度以及运算复杂度也是在实际开发时需要着重考虑的因素，表一为作者自己总结的效果评价指标，供空间音频技术人员在实际工作中参考使用

评价指标	清晰度	空间化	真实度	实时因子	系统延时
指标描述	着眼于语音的可辨识度	音频的沉浸感，方位感	与原始音频的差距	计算时间除以被处理音频的持续时间	系统性的延时

表 1 空间音频评价指标

5 总结与展望

基于神经网络的空间音频渲染算法技术框架可有效克服非线性波建模问题，生成精确的双耳音频。该技术框架能够完美模拟自然声学传播环境中的线性以及非线性效应，输出非常具有沉浸感的双耳空间音频。该渲染技术非常适合在虚拟现实音频制作以及数字孪生等场景中应用部署。优化神经网络结构，构建更加合理的回归损失函数，在此基础上，平衡计算资源和性能，以期实现在移动计算平台上的实用化是基于神经网络的空间音频渲染技术未来的发展方向。

作者：韩建 | 来源：公众号——青榴实验室