完美重建声场，打造音乐会临场感

在音乐会现场，即使声场是由多种乐器的声音混合而成，观众也很容易地感知到来自不同位置的不同乐器的声音。

从19世纪80年代爱迪生的留声机开始，一代又一代工程师们探索着“重现声场”的技术：三极管真空管、动态扬声器、磁性留声机卡带、数十种不同拓扑结构的固态放大电路、静电扬声器、光盘、立体声和环绕声。在过去的50年里，音频压缩和流媒体等数字技术已经改变了音乐产业。但是即使是现在，我们从高端音响系统中听到的声音，也远远不及我们亲临现场音乐表演时听到的真实和震撼。

近日，相关团队发布了一个名为“3D Soundstage”的平台。该平台允许智能手机、电脑及其他音响设备播放音乐。亮点在于它不仅可以将以前录制的单声道和立体声音乐转换为更具沉浸感的声场（soundstage）音频，还可以让听众根据自己的喜好随意配置，就像是听一场独家定制的现场音乐会。

图1 各种各样的音频格式和系统来满足听众的需求

1：“Soundstage”的技术基础

为了完美重现现场的声音体验，技术人员需要在录取声音信号的同时记录声源的位置信息，这离不开头部相关传递函数（HRTF）的获取。

图2 HRTF的测量当声音传到你的耳朵时，你头部的独特特征（物理形状、外耳和内耳的形状，甚至鼻腔的形状）都会改变原始声音的音频频谱。当然，同一声源分别到达两只耳朵的时间也会有微小差异。正是通过这种时域和频域的差别，人的大脑可以感知声源的位置。将这种差异进行数学建模，即为HRTF。因此，使用一对HRTF处理后的音频，听众便能感受到声音录制时的方向。

有许多商业软件借助头传递函数HRTF为听众重建声场，比如苹果公司的Spatialize Stereo和Spatial Audio。然而，前者不能将音频中乐器声清晰地分离开来。后者虽然借助了杜比Atmos环绕声技术可以创建空间音频，但是意味着必须重新录制过去的音频（因为该技术应用了一组HRTF），这是不现实的。Spatial Audio还有另一个问题，它只能支持耳机，不能支持扬声器。

2：实现真正意义上的“Soundstage”

该平台首先使用机器学习软件将音频分离成多个独立的音轨，每个音轨代表一种（组）乐器或歌手。这个分离过程可以称为“混搭”，任何一位用户都可以成为制作人，创建个性化的音乐。

假设创造一首由吉他、贝斯、鼓和人声组成的四重奏歌曲。听众可以自己决定每一位表演者的位置，并可以根据个人喜好调整每个人的音量，还可以虚拟地安排表演者或自己在声场中的位置。个性化的配置为音乐享受增加新的维度。

图3 用户配置界面

如果要通过耳机收听，转换后的声场音频则有两个声道；如果要在多扬声器系统上播放，那它就是多声道的。重建声场中不同声源的数量甚至可以多于扬声器的数量。

这种多声道方法与普通5.1和7.1环绕声不同。后者通常有五个或七个单独的频道（扬声器），外加一个低音炮（“.1”），所以比普通的双扬声器立体声更具沉浸感，但它们仍然没有达到真实地身临其境的效果。而3D Soundstage播放时，绕过5.1、7.1或任何其他特殊音频格式，包括多声道音频压缩标准。

简单介绍一下这些标准。为了更好地处理数据以改进环绕声和沉浸式音频应用，研究人员制定了许多新的标准，其中包括通过空间音频对象编码（SAOC）来实现沉浸式空间音频的MPEG-H 3D标准。这些新标准继承了几十年前开发的各种多声道音频格式及其相应的编码算法，如杜比AC-3和DTS。

SAOC的设计允许音频文件有效地存储和传输，同时保留了听者根据个人喜好进行混音的可能性。然而要做到这一点，则依赖于各种标准化的编码技术。编码器的输入是包含音轨信息的数据文件，每一个音轨则是表示一个或多个乐器的文件。编码器使用标准化技术压缩数据文件，再由音频系统中的解码器在播放过程中对文件进行解码，然后通过数模转换器将文件转换回多通道模拟信号。

而3D Soundstage平台绕过了这一点，其使用单声道、立体声或多声道音频数据文件作为输入，将这些文件或数据流分离成多个独立声源的音轨，然后根据听众的首选配置将这些音轨转换为双声道或多声道输出，以驱动多个扬声器或耳机。平台使用了人工智能技术来避免多个音轨的重新记录、编码和解码。

图4 用神经网络分离音乐

3：音频的实时分离或混合

通过机器学习技术将传统的单声道、立体声或多声道录音实时分离(或混合)为多个独立的音轨。

该过程实现主要分为两个部分：训练和混音。在训练环节中，将大量混音歌曲以及其独立声道分别作为神经网络的输入和目标输出。继而使用机器学习优化神经网络参数，并通过反复的参数调整使神经网络的输出与目标输出匹配。与机器学习的任何训练数据集一样，可用训练样本的数量越多，训练的最终效果就越好。在本案例中，需要成千上万首歌曲及其单独的乐器数据来进行训练，总训练音乐数据集为数千小时。

神经网络经过训练后，给定一首混音歌曲作为输入，系统通过使用训练期间建立的神经网络运行歌曲，则可以输出多个分离的曲目。

4：声场重建

在将一段录音分离成它的组成音轨之后，下一步是将它们重新生成。这由一个声场信号处理器完成。这个处理器执行复杂的计算功能，以生成驱动扬声器的输出信号并生成音频。发生器的输入包括单独的音轨、扬声器的物理位置、以及重建声场中所需的听者和声源位置。声场处理器的输出是多声道信号，每个声道一个，用于驱动多个扬声器。

该团队于2020年为iPhone发布了第一个声场应用程序。它允许听众实时配置、收听和保存声场音乐，处理过程不会造成明显的时间延迟。这款名为3D Musica的应用程序可以将立体声音乐从听众的个人音乐库、云盘甚至流媒体音乐实时转换为声场音乐。

正如音频从单声道走向立体声，又从立体声走向环绕立体声和空间立体声一样，它现在也开始走向“舞台声”。早期，发烧友通过保真度来评估一个声音系统，包括带宽、谐波失真、数据分辨率、响应时间、无损或有损数据压缩以及其他与信号相关的因素等参数。现在，声场可以作为声音保真度的另一个维度。对人的耳朵来说，声场扣人心弦的空间感和即时性远比改进和声失真要重要得多。

技术推动了音频行业的前几次革命，现在正在发起另一场革命。人工智能、虚拟现实和数字信号处理正在利用心理声学给音频爱好者提供他们从未有过的体验。与此同时，这些技术为唱片公司和艺术家也提供了新的工具，为旧唱片注入新生命，为创作开辟新道路。终于，重建音乐厅声音的百年目标真正实现了。

参考文献：

Q. Li, Y. Ding and J. Olan, “How Audio is Getting its Groove Back: Deep learning is delivering the century-old promise of truly realistic sound reproduction,” in IEEE Spectrum, vol. 59, no. 10, pp. 46-52, October 2022, doi: 10.1109/MSPEC.2022.9915633.