从阵元域到模态域的三维音频技术

随着视频空间化的进程,人们对音频空间化也越来越感兴趣。空间音频也称三维音频,是一项可以在扬声器阵列或者耳机上产生三维方位感的音频技术,其目的是营造一种身临其境的体验,在这种体验中,声音对象和声音事件相对于听众以及在包含听众和声音对象的某个环境空间相互有清晰的定位。它需要和涉及的不仅仅是短暂的幻觉或对声音方向的感知,而是可信的、扩展的听觉空间的感知体验,以支持某种版本的现实。             

图片

1、阵元域和模态域的区别

用于虚拟现实(VR)和增强现实(AR)应用程序的数据通常由专用摄像机和麦克风阵列采集。消费者从第一人称视角体验内容,其中音频信号以双耳方式呈现。

在阵列信号处理领域中,通常称那些直接对阵元观测信号进行信号处理的方法为阵元域阵列信号处理算法。

与“阵元域”相对应的是“模态域”。模态域阵列信号处理算法是在声波传播和散射原理的基础上提出的,使用声场分解技术将阵元观测信号分解为一组相互正交的空间谐波,随后对谐波系数进行信号处理。模态域信号处理算法常用于圆形阵列(UCA)和球形阵列(SMAs),只不过圆谐波域算法是使用声波方程在柱坐标系下的本征解来分解声场,而球谐波域算法是使用声波方程在球坐标系下的本征解,将信号从阵元域变换到模态域,可以实现信号模型中空间依赖项和频率依赖项的解耦,由它表示空间声场具有简洁、计算方便等优点。

近十几年来,球谐函数在音频信号处理中得到了广泛的应用,包括声场重建、波束形成、声源定位与分离和室内声学分析等。         

图片
麦克风阵列产品展示


2、高阶Ambisonics(Higher-Order Ambisonics)

从20世纪末八十年代开始,麦克风阵列采集技术的突破推动了物理声场重建技术的发展,其中最著名的是基于球谐分解声重放技术和波场合成(WFS)技术。WFS能够在较大的区域再现真实声场,但是为了追求高质量的声场重建,往往需要几百通道的扬声器阵列,基于通道的立体声环绕声格式也不够灵活,声场的旋转也会影响重放效果。那么有没有更实用的选择呢?

球面谐波是存储和传输音频内容的灵活基础,因为它们允许调整播放以适应听众头部的旋转,空间音频信号在球谐系数方面的表示也被称为Ambionics格式。Ambisonics诞生于1973年,对原始声源进行球谐分解,实现球面包围区域内原始声场的精确重建。1975年Geron实现了一阶球谐分解(First Order Ambisonics,FOA),此时重建区域退化到中心原点即最佳听音点处,FOA现已广泛应用于VR和AR。

但FOA空间分辨率低,只适用于小区域的声场重建,而提高空间分辨率、扩大重建区域,需要增大球谐分解阶数。同时声场的频率越高,也需要更高阶的展开系数来表示,相应的技术被称之为高阶Ambisonics(HOA)。   

3、高阶Ambisonics的编码滤波

球形麦克风阵列是近年来研究的热点,尤其适用于全景声音场景的记录。凭借其球对称性,SMAs为分析球谐域内的声场提供了一个天然的框架。在频域中,任何由入射声波组成的声场都可以表示为一系列球谐函数,以空心球形阵列为例,声场可以完全由复系数 blm(k) 描述:

从阵元域到模态域的三维音频技术

为了对球面声压进行数值计算,需要截断上述求和公式,从球形麦克风信号中检索到L阶HOA分量的过程被称为L阶HOA编码:

从阵元域到模态域的三维音频技术
从阵元域到模态域的三维音频技术


4、Ambisonics拾取设备

2018年,Sennheiser发行了其VR麦克风——AMBEO VR MIC。其内部采用了4枚严格匹配的KE14话筒极头,并以四面体方式排列,从而符合Ambisonic制式。Zoom公司也发行了可用于录制Ambisonics的麦克风——ZOOM H3-VR、ZOOM H2n,这两款都可录制VR的空间音频,最常用的格式为AmbiX以及FuMa,他们的差别最主要是通道的顺序,AmbiX是WYZX;FuMa则是WXYZ。借助H3-VR,VR就绪的Ambisonics编码和解码都可以无需计算机完成,操作更加方便。

图片

获取4声道信息的产品

VisiSonics的Audio Camera由5个摄像机和64个麦克风组成,采用7阶Ambisonic技术,该球形结构和相关算法精准地复原了环境全景声像图。当然随着通道的增加,计算也就越复杂。目前这样的高阶产品的应用还是以声学测量为主。

图片
VisiSonics 5/64 Audio/Visual Camera

综上所述,Ambisonics技术研究仍存在着不同的优势和缺陷,同时,针对现有的音频质量客观评价方法仍然停留在二维感知声场的问题,为了对三维音 频系统所能提供的空间听觉体验进行有效的评价,面向三维音频感知声场的客观评价模型也将是未来的研究热点。相信随着研究的不断深入,将会有越来越多的三维音频技术问题得到解决,并在实际中得到广泛应用。

参考:

1、A. Politis and H. Gamper, “Comparing modeled and measurement-based spherical harmonic encoding filters for spherical microphone arrays,” 2017 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), New Paltz, NY, USA, 2017, pp. 224-228.

2、胡瑞敏,王晓晨,张茂胜,李登实,王松,高丽,杨乘,杨玉红.三维音频技术综述[J].数据采集与处理,2014,29(05):661-676.

3、Poletti, Mark A.“Three-Dimensional Surround Sound Systems Based on Spherical Harmonics.”Journal of The Audio Engineering Society 53 (2005): 1004-1025.

4、Jin, Craig. (2020). A tutorial on immersive three-dimensional sound technologies. Acoustical Science and Technology. 41. 16-27. 10.1250/ast.41.16.

作者:宋芳葶
来源:21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论