一文看懂空间音频(空间音频技术及应用场景)

写在前面：从单声道，发展到双声道，再到多声道，以及环绕立体声，数字音频的表现力越来越生动。空间音频（也叫三维声、3D音频）不是简单的通过更多声道让声音更有立体感，而是和视频空间化同步的音频的空间化过程，基于空间的音频也可以有6DOF自由度，可以交互，元宇宙里的声音不仅仅要清晰悦耳，更需要和空间场景高度契合的真实感和沉浸体验。

作者：韩建毕蕾
来源：咪咕灯塔
审核：单华琦
原文标题：《还原声音本来的样子：空间音频》

空间音频背景篇

随着视频空间化的进程，音频也进入空间化的过程。空间音频也称 3D 音频，是一项可以在扬声器阵列或者耳机上产生具有三维方位感的音频技术。这通常涉及在三维空间中虚拟放置的声源，包括听者位置的前后左右上下各个方向。针对不同的场景，空间音频的渲染技术有所不同。当播放场景为使用扬声器阵列播放时，空间音频的实现技术为通过音响阵列的合理摆放，将不同声源的音频信号与音箱位置的映射（使用音箱阵列转换矩阵与音源的位置进行映射运算），来实现播放声音信号的空间感和方位感。当播放场景为耳机时，空间音频需要做双耳化三维音频渲染，具体技术是使用头部相关转换函数与携带方位信息的音频信号进行时域卷积，距离衰减补偿，同时适当的添加混响，来模仿自然声波，使其仿佛来自三维空间中的一个点。这样使用耳朵和听觉神经来欺骗大脑，使其感觉听到的声音源处在空间不同的3D位置，即使声音可能仅由两个扬声器的耳机生成，与传统的环绕声不同[1]。

回顾一下音频发展史，自1940 年世界首部立体声电影《幻想曲》，到1992年世界首部5.1 环绕立体声电影《蝙蝠侠归来》，再到2010 年世界首部7.1 环绕立体声电影《玩具总动员3》，短短几十年的时间里，从单声道到多声道，再过渡到被声音包围的环绕声，再到现在的空间音频，飞速发展的电影声音技术在朝着“将声音最接近现实的还原”这一终极目标不断冲刺着。

空间音频在 XR 以及元宇宙场景不是锦上添花而是必选，没有空间维度的音频的虚拟世界让人寸步难行。因为在现实生活中，空间音效非常重要，比如当有人叫你的姓名时，你知道往哪个方向看；如果你在人行道上掉了一个硬币，你可以判断它已经往哪个方向滚动。因为自然的声音有空间感，也就是说可以在环境中确定声音发生的位置。

在混合现实应用中，我们的交互当前可以有 6DoF（即前后，左右，上下，以及在这三个自由度上的位移），如果声音没有空间感，我们就不清楚应该往哪看，去哪看，这时需要空间音效配合全息影像与混合现实世界更深入地联系起来，通过有空间感的声音提供有关环境和物体状态的信息。可以根据想要引起用户注意的方向提供提示，可以引导他们完成后续步骤，提升用户手势和语音交互的效率。

下面我们一起来了解一下空间音频的相关技术。

空间音频技术篇

在讨论空间音频具体实现技术之前，先讲一下人耳定位的基本原理。

人耳生理结构

空间某点声源发出的声音传递到人的两耳，会有时间差（ITD，interaural time difference）和强度差（ILD，interaural level difference），并且声音在传递过程中会与人身体以及环境发生一系列的相互作用，使声音的音质改变，人耳根据到达两耳声音的时间、强度和音质的差别来确定声源的位置。在自然界中，由于声源分布在听众的四面八方，来自于不同方位的声音因为ITD和ILD让人产生了方位感（结合视频2）。

理论基础

如何让采集的声音播放出来产生同样的方位感效果？是空间音频渲染需要解决的问题。通常声音播放有两种形式，一种是多音响阵列，另外一种是使用耳机播放。对于前者，通过使用多个扬声器，并将其在空间中按照预设的位置摆放来模拟空间音频源播放方位，比较典型的例如日本 NHK 电视台的 22.2 多声道音频重放环境。使用耳机播放原理是双耳的 ITD 和 ILD 信息可以用一个传递函数来表示，称为头相关传递函数（HRTF，head-related transfer function），耳机最后播放的声音可以表示为声源声音与 HRTF函数的卷积输出，如下面公式所示，其中 HL，HR 分别为左右耳的HRTF参数，S表示声源声音。

图1 基于HRTF的双耳渲染公式

仅仅这些还不够，因为声音会受到环境的影响，实际传递到人耳的声音由三部分组成：直达声、前期反射声和后期混响声。直达声是方向信息的主要提供者。前期反射声是声源经较少次数反射后的声音（约80ms内），因人耳听觉有延迟效应，无法区分两者。后期混响声是经过多次反射后到达人耳的声音。人耳对环境和声源位置的感知会受到混响声的影响，可以提升对声源定位的准确度。因而如果想让音效更自然，需要在传统音效基础上叠加 3D 声场的混响效果。3D 声场可以更加细腻呈现我们的声音在空间中的位置包括它的衰减、反射等情况，可以提供更有空间感的沉浸体验。

生产流程

空间音频从技术环节来说，可以分为三个环节，生产制作，传输，以及渲染，如下图。

音频渲染的主要任务是将音频解码后的输出渲染至具体的音频回放设备中去，因而空间音频渲染主要是解决呈现效果的重任。由于篇幅有限，本次主要介绍音频渲染环节的相关技术。

下图展示了空间音频渲染系统框架里的主要环节。

图3 空间音频渲染技术框图

音频渲染预处理

当前支持的空间音频信号的空间音频编解码技术可以分为三种类型：

基于场景的音频表示信号：是基于球面谐波变换的高阶精度系数来表示三维空间所有点的压力值，在实际播放时，需要对 HOA 系数进行虚拟扬声器映射（称之为 HOA解码）得到声道信号，然后进行播放。
基于声道的音频表示信号：在录音时预先设定好声道与扬声器的位置映射，录音获得相应的声道录音信号，播放时，按照扬声器位置映射将相应的声道输入至该扬声器进行播放。这种方式为基于声道的信号表示方式。
基于对象的音频表示信号：对象对应于不同的声音个体，在具体表示是，声音对象可以携带声音的音频特性，空间位置，语言类型甚至元数据交互的功能。在播放时，对所有的对象进行渲染播放。和前两种相比，可以更灵活、自然的表达音频信号，更适用于虚实结合交互更多的XR场景。

除此之外还有解码后的元数据。音频渲染预处理模块的主要任务是识别解码输出后的信号属于上述哪一种信号，进而根据信号种类将解码后的格式数据统一成为系统约束的格式，为接下来的空间信息处理模块调用正确的空间信息解析器做准备。

空间信息处理模块

这一环节的主要任务是读取三种音频信号的空间信息和场景信息，并将其归一化转换成渲染器后续所需要的音频元素，运动元素，场景空间元素等。

输出信号处理模块

该模块的主要任务是将空间信息处理模块输出的中间信号根据用户应用场景的回放类型解码到播放设备上。对于扬声器阵列信号，渲染器将中间信号与回放扬声器矩阵相乘即可获取回放信号。对于耳机回放信号，先预设扬声器阵列，再根据扬声器的位置进行HRTF卷积来对扬声器进行虚拟化处理。

同时，考虑到不同回放方式的不一致性，不同回放设备有着不同的频响曲线和增益，为了呈现一致的声学体验，渲染系统通常会对输出信号后处理调整。后处理的操作包括但不限于针对具体设备的频率响应补偿（EQ，Equalization）以及动态范围控制（DRC，Dynamic range control）等。

各大公司专利情况

各大公司都看到了空间音频在未来XR以及元宇宙的重要性，也在紧锣密鼓地部署相关的专利，涉及到软硬件、芯片等各个领域。

苹果在2021年11月获虚拟环境“可听化”专利。涉及到虚拟3D环境实时化的技术，实时地对虚拟3D环境进行物理上的精确化。这包括任何（或所有）声源、声音接收器和虚拟环境中的几何/表面可能随着声源的模拟而动态变化的环境。2022年2月有报道申请空间音频新专利，涉及用于AirPods Max的空间音频渲染处理器，该处理器可校准音频波束成形阵列处理算法，以响应可穿戴音频设备物理形状的变化。

微软认为空间音频是沉浸式体验的关键要素，提出一种解决方案是在物理空间设置多个扬声器，然后音频系统中扬声器的输出可根据用户的位置或头部位置进行调整，从而提供匹配的对象声音感知。在2022年1月被报道正在做名为“Mixed reality complementary systems”的相关专利申请。提出多种实施案例，设备可以通过多个声音系统来提供逼真的音频MR体验。

图4 数字表示的示例MR空间100（来源于映维网）

此外Meta、索尼、小米等在空间音频领域都有专利布局。

空间音频应用篇

随着支持空间音频耳机的普及，空间音频的体验门槛快速降低。随着空间音频用户规模的增长，空间音频势必会对统领了大半个世纪的传统立体声音频产生冲击。

音乐场景

在音乐场景，苹果公司不仅仅提供空间音频流媒体服务，还提供专业音乐制作工具Logic Pro ，集成了 Dolby Atmos 制作环境。苹果2021年在 Apple Music 推出了《周杰伦地表最强世界巡回演唱会 (Live)》杜比全景声版。该专辑运用了杜比全景声提升声音表现，并支持苹果在 iOS 15 上的动态头部追踪技术。动态调整声音，例如在你转动头部之后，环绕着你的空间音频会跟着你的头部重新定位，带来更加沉浸的音乐体验，目前支持该技术的设备有 AirPods Pro 和 AirPods Max 两款无线耳机，使用空间音频和头部跟踪来营造影院般的沉浸式环境。

图5 周杰伦地表最强世界巡回演唱会 (Live)

电影场景

德国人Hans Zimmer从《狮子王》，《盗梦空间》，《星际穿越》，以及去年的新作《沙丘》，Hans Zimmer一直致力于将最新技术应用到电影音乐制作当中。他运用Dolby Atmos的空间音频技术把用于单独发行的《沙丘》电影原声带重做一遍，让更多的人体验完整的沉浸式的音乐体验。他感悟，电影配乐随着技术发展，制作音乐的人要走到技术的前沿，方能走到音乐创作的前沿。

游戏场景

混合现实体验的成功之处在于能够让你有虚拟场景真实发生在玩家身上的感觉。如基于微软 HoloLens 的 MR 游戏 RoboRaid 场景，要让玩家相信真的是在自家的客厅中抵抗外星机器人的入侵。空间音频配合空间视觉效果可以大大提升这种真实感。比如玩家在被虚拟炮弹击中时传统游戏中可能会看到一个角色被击中的动画，或者屏幕可能会闪现红色，玩家的角色可能会哼哼几声，实际不会有任何感觉。但是这类提示在混合现实体验中难起到作用，因此可以采用一种夸张的声音组合在一起，如核潜艇下潜时的混响加警告的方式，让你感觉你已受伤。此外成功躲避攻击的玩家可以听到子弹飞过带有多普勒效果的“嗖嗖”声也很具有真实感。

未来元宇宙场景空间音频的应用不仅局限在娱乐场景，也可以应用到线上办公、XR会议、远程协助，以及5G新通话等沉浸式交互场景，为未来的元宇宙带来更有临场感的空间体验。

图6 meta horizon wookrooms 会议场景

空间音频展望篇

空间音频渲染的主要挑战有几个方面。第一个挑战，从回放设备上来考虑，基于扬声器阵列实现的回放环境存在物理空间里不同位置听觉体验的显著差异。在一个由扬声器阵列构建的回放环境里，存在着一个 sweet spot 即最佳听音位置（图5中小人所在位置），超过下图绿色区域的位置将无法获得预期的空间音效。

基于耳机的回放环境，其回放效果依赖于 HRTF 的准确性，而每个人的 HRTF 参数又是不一样的，这意味着无法在耳机中通过使用通用 HRTF 来播放空间音频。换句话说，如果要获得准确的空间音频效果，必须准确测量每个人的HRTF参数。

空间音频渲染面临的第二个挑战是空间音频渲染过程中所消耗的资源。以 HOA 信号为例，如果想更精确的表达语音信号以及所携带的空间信息，需要增加球谐函数的阶数，与此同时，高阶球谐函数精确恢复声场时需要庞大的扬声器数目。假如在半径1m 区域内恢复最高频率为 20 kHz 的声场，需要对球谐函数进行不少于 36 阶的截断，这需要大概 1369 个扬声器才能实现，即使不考虑扬声器的数目，如此庞大的计算量，在实际应用中也是不现实的。所以在实际应用中，需要在球谐函数的阶数，语音质量以及空间精准度之间做相应的妥协与平衡。

空间音频技术在虚拟现实、消费电子，网络直播等领域有着广泛的应用前景，因此成为近年来音频信号处理领域中颇为引人注目的研究课题之一。当前国际上众多知名公司如 Google, Apple, Sony 等也纷纷推出自己的三维音频一体化解决方案。空间音频正迎来音频技术领域发展的“风口”。

国内对三维音频技术的研究尽管起步较晚，但发展较快。2016 年 2 月19 日，AVS（数字音视频编解码技术标准）技术应用联合推进工作组领导小组召开第七次会议，决定成立三维声（3D Audio）专题组，2021年3月，CUVA与AVS两大组织宣布联手进行三维声标准化研究。

近年，咪咕公司非常重视空间音频也就是三维声相关的技术预研，并积极参与三维声相关标准的编制工作。2021年，咪咕在 AVS3 音频组先后贡献 “AVS3音频生产系统及重放系统标准需求”，“AVS3三维声音频生产系统规范建议及测试方案” 两份提案并被采纳。其中 “AVS3三维声音频生产系统规范建议及测试方案” 对三维声的制作系统提出了指标规范以及分析测量方法。对三维声的制作以及在维声在元宇宙场景的应用有着一定的指导作用。2022年，咪咕公司参加 UWA 三维声音技术规范系列标准的起草工作，涉及三维声音频编解码技术以及三维声渲染设备测量技术。我们将在空间音频领域的技术研发和标准化上持续探索和耕耘，为未来元宇宙场景的到来积极储备。

【参考文献】
1. 维基百科 3D 音效定义

2. 微软空间音效概述

3. 苹果获虚拟环境“可听化”专利，推动空间音频向AR/VR产品扩展

4. 苹果申请空间音频新专利，H1芯片未来发展方向或将揭晓

5. Hans Zimmer 谈空间音频：我不想听立体声，因为它不完整

6. 微软专利介绍通过多个声音系统提供逼真空间音频MR体验