收声设备简介

本文分享来自“抖音多媒体评测实验室” 撰写的收声设备介绍。将从麦克风、话筒等方面为大家带来一些关于发声设备的知识,欢迎关注了解。

1 麦克风单体及选型

图片

1.1 麦克风单体

MIC:麦克风、传声器或话筒图片图片

1.2 麦克风单体参数  

MIC单体主要参数有指向性、灵敏度、信噪比、总谐波失真、声学过载点、动态范围、电源抑制比等。

  • 指向性

  描述MIC对于不同角度声音的灵敏度。MEMS MIC是全指向型

图片

  • 灵敏度(Sensitivity)

  MIC输出电信号与输入声压之比。基准声压是1Pa或94dBSPL@1kHz正弦波。  模拟MIC单位:mV/Pa或dBV/Pa;数字MIC单位:dBFS

  • 信噪比(SNR)

  MIC在输入激励为94 dB SPL@1kHz下的输出信号幅值与无输入信号的输出信号幅值(本底噪声)之比。

  • 总谐波失真(THD)

  指输出信号比输入信号多出的谐波成分。谐波失真是系统不是完全线性造成的(非线性)。

图片

  • 声学过载点AOP(Acoustic Overload Point)

  麦克风在总谐波失真等于10%@1kHz时所能承受的最大声压级,又叫声过载点。常见的MEM MIC AOP为120dB SPL,低灵敏度的可以达到130dB SPL甚至更高。

  • 动态范围

  MIC输出最小信号和最大信号之差。足够大的动态范围能够最大程度保留原始音质而不发声失真

  • 电源抑制比(PSRR)

  输入电源变化量与MIC输出变化量的比值,单位为dB。

  附某型号硅麦性能参数:

图片

2 话筒

图片

常见的话筒根据工作原理的不同可分为:动圈话筒(dynamic Microphone)、电容话筒(Condenser Microphone)。

2.1 动圈话筒

动圈话筒的灵敏度不够高,和电容话筒相比不能够拾取到更多的细节,但是同样也不容易拾取到环境噪声,非常适合舞台上使用,不容易产生啸叫。不灵敏的另一个好处是能耐受非常大的声音而不爆音,比如在舞台上近距离拾取军鼓的声音,优秀的鼓手打出的声音都是非常大的,如果用电容话筒肯定会爆音,再怎么调放大器增益都没用,而动圈话筒就非常合适。虽然动圈话筒的频响不如电容话筒的平直和宽广,但是很多乐器如吉他、贝斯等本身就不是全频段的乐器,动圈话筒已经能将它们的声音拾取的很好了,还避免了其他乐器串音的麻烦,调音师修EQ的时候也会方便很多。动圈话筒还有一个很大的优点是坚固耐用,不小心掉在地上也没关系,捡起来就能继续使用。如果是电容话筒就很难说了。

2.2 电容话筒

电容话筒需要一个极化电压,而且微弱的信号也需要一个预放大,这都需要电源供电,所以所有的电容话筒都是需要幻象电源(phantom power)来供电的。现在的放大器和音频接口及调音台上基本都会有幻象电源。电容话筒最大的特点就是灵敏度高,拾取的细节丰富,频响曲线平直宽广,所以在录音棚里良好安静的声学环境下能发挥出令人满意的效果。而在普通的环境下就很容易拾取到环境的噪声,如隔壁的说话声,楼下的汽车声,这些在后期是很难去除的,即使勉强去除也会损伤音质。除了对声音环境有要求外,电容话筒也比较娇贵,轻拿轻放是必须的,不用的时候最好收起来,旁边放上几包干燥剂,因为潮湿会影响电容话筒的音质。所以一般上档次的录音棚都会买专门的恒温恒湿干燥箱来保存话筒。

电容话筒分晶体管和电子管两种:晶体管话筒里面用的是晶体管,电子管话筒里面用的是电子管。
由于电子管本身的特性,电子管话筒都要配一个电源(买话筒时一般会附带),使用的时候还要先花几分钟预热到最佳状态,平时还要注意保养,因为电子管是有寿命的。虽然麻烦,但是电子管话筒的音色要比晶体管话筒温暖一些,得到很多歌手和录音师的喜爱。但也有人会觉得不够干净,因人而异,音色本来就是非常主观的。一般来说电子管话筒要贵一些,而且没有太便宜的电子管话筒。

2.3 USB话筒

USB话筒本质上和普通的话筒没什么两样,只是加入了模数转换(AD)的功能,模拟信号直接被转为数字信号,通过USB接口可以非常方便的把信号录进电脑中。这样只需一个USB话筒和一台电脑就能录音了,没有声卡和放大器也没关系,连话筒线都省了。虽然方便,但是有利就有弊,受价格定位和成本的影响,USB话筒一般都不太贵,音质肯定不能和昂贵的专业话筒相比,内置的AD电路也不可能和专业的话放及音频接口媲美,只能说够用而已。

此外USB话筒无法和板载声卡或专业音频接口共用,监听和回放成问题,想听着伴奏录唱都很难实现。为了解决这个问题,厂家开始升级技术,在USB话筒上加入耳机接口,使得USB话筒变成了话筒和USB声卡的合体。USB话筒最大的特点就是方便,即插即用,加上一个笔记本电脑就能随时随地录音。

3 标准(测量)麦克风

3.1 标麦的要求

下面列出了常规的测量级麦克风的要求:

  • 良好的声学和电学性能

  -宽频率范围和平坦的频率响应  -线性动态范围宽,固有噪声低,失真低  -对要测量的声场影响很小

  • 受环境影响较小:

  -受环境压力、温度和湿度的影响很小  -受振动、磁场和电磁场等的影响很小  -良好的机械稳健性,良好的抗冲撞和抗冲击性  -良好的耐化学性,良好的耐腐蚀性

  • 灵敏度和频率响应的高稳定性

  -短期波动小(随机变化)  -长期漂移小(系统变化)  -高温漂移小(系统变化)

  • 对特性测量和计算的高适应性

  -适用于使用实用且准确的方法进行标定  -简单的形状和易于描述的动态系统参数

  • 全面的规格性能的描述

  -测量和计算的麦克风数据的可用性  -个体标定表形式的性能文件  -定期重新标定的服务可用性国际电工委员会(IEC)制定了两个标准,分别规定了实验室标准和工作标准麦克风类型的性能要求。这两个标准分别是IEC 1094-1(实验室标准)和IEC 1094-4(工作标准)。这些标准可通过国家标准组织获得。

3.2 标麦的构造

图片 传声器的结构和外形如上图所示,由非常薄的振动膜片和紧靠膜片的背板组成一个电容器。振膜可以是绷紧的金属膜片或涂有金属的塑料膜片,通常极化电压为200V或是预极化的驻极材料制成。当膜片受到声波作用时,其电容量发生变化从而产生交变电压,形成变化着的电信号输出。  为了提高传声器的灵敏度,应该减少杂散电容,因此,传声器极头(也称咪头)常和第一级前置放大器靠得非常近。一个完整的传声器由极头和前置放大器组成,如下图所示。由于电容传声器的电容量很小,故需要一个高阻抗负载以保证具有低的下限截止频率。图片

  传声器的直径,有些国家采用英制尺寸系列,如1’,1/2’,1/4’和1/8’,也有些国家采用毫米单位,对应的尺寸为24mm,12mm,6mm和3mm,最常用的为1/2’传声器。图片

  4个典型的不同尺寸(1/8inch 1/4inch 1/2inch 1inch)测量麦克风的上限频率响应图片

4个典型的不同尺寸(1/8inch 1/4inch 1/2inch 1inch)测量麦克风的动态范围。

下限以dBA为单位。上限是3%总谐波失真水平,以dB为单位

图片

上限频率范围和固有噪声之间关系图。

这4个点代表从1inch(左下角)到1/8inch(右上角)的4种尺寸的麦克风。

3.3 标麦的极化方式

有两种不同类型的麦克风极化方式,一种是使用外部电源进行极化,振膜与固定电极之间以空气为介质,形成一个电容器。振膜与固定电极之间通过串联的高阻值电阻器接直流极化电压。另一种是将极化电荷存储在麦克风背板上的驻极体层中(预极化,驻极体标麦)。通常,外部极化和预极化麦克风的性能只有很小的差异,但是这些差异使得它们适合于不同的场合。预极化麦克风用于便携式声级计,在这些场合中要求麦克风具有轻巧性和不需要极化电源。在非常潮湿的环境中,预极化麦克风的性能也稍好一些。外部极化的麦克风通常更适用于就地使用(指不需要便携性的场合)、实验室应用以及高温测量。此外,对于特殊测量,外极化麦克风可提供更广泛的选择范围。

3.4 不同声场类型的标麦

图片

     自由场              压力场              随机场

自由场是最常用的声场类型,当声源位于传声器前方时,且测量环境较为开阔,宜选自由场传声器。或者说声场本身就是自由场时,如在消声室测量则应选用自由场传声器。

压力场传声器用于测量膜片前端表面的声压,典型的应用是在密闭的空间内,如上图所示测量墙体或管壁边界的声压,此时,传声器成为墙体或管壁边界的一部分了。

随机场也称为无规则入射场,当传声器附近存在多个方向入射的声源时,或者存在多个方向的反射声时,如混响室,则宜选用随机场传声器。

3.5 怎样选择标麦

对于声压测量而言,选择传声器应遵循以下原则:1)根据测量的声场类型来选择;2)根据测量的声压级上下限来选择动态范围合适的传声器;3)根据关心的频率范围来选择合适的传声器;4)对于低声压级测量,应选择高灵敏度的传声器,如测量冰箱噪声;5)对于高声压级测量,应选择低灵敏度的传声器,如爆破测量;6)根据测量环境来选择传声器附件,如风球、鼻锥等;7)还需要考虑温度的影响,如果测量的环境温度太高,宜选用极化的电容传声器。

4 麦克风阵列

4.1 什么是麦克风阵列

麦克风阵列是由一定数目的声学传感器(麦克风)按照一定规则排列的多麦克风系统,对声场的空间特性进行采样并滤波的系统。麦克风阵列除了看到的麦克风数量以外,还有一系列的前端算法,两者结合的系统才是完整的麦克风阵列系统。而麦克风阵列也只是完成了物理世界的音频信号处理,想要完成语音识别,还是需要云端的ASR模型,两个系统配合在一起才能得到最好的识别效果。

图片

4.2 麦克风阵列分类

麦克风根据布局的形状,麦克风阵列可以分为一维线阵列、二维平面阵列、三维立体阵列。所有的麦克风要求型号、频响一致、采样时钟同步。

4.2.1  一维线性阵列

常见的是两个麦克风组成的线性阵列,目前几乎所有中高端手机和耳机都采用双麦克风降噪技术来提升通话效果,目前比较火的VR产品,QUEST2和Pico Neo3也是采用线阵,也有部分智能音箱采用这种方案。双麦克风组成的线性阵列最大的优势就是成本低,相对于多麦克风,功耗也更低。缺点也比较明显,降噪效果有限,对于远场交互的效果并不好。

  • Broadside结构(垂射阵列or加性麦克风阵列)

图片

Broadside结构是一种常见的麦克风阵列结构,麦克风之间间距为d,目标语音方向和麦克风之间的连线呈垂直关系,如上图所示(左为双麦结构,右为三麦)特点

  1. Broadside结构的优点是处理简单,只需要将两路麦克风信号相加即可。
  2. 缺点也很明显,只能衰减两边的信号,对称角度的空间响应是相同的。
  3. Broadside适合用于有期望信号只来自正前方,干扰来自两侧的场景。
  4. Broadside设计时只有一个变量,即麦克风间距d,算法上可增加延迟或滤波器参数。
  5. 此阵列多用于,没有其它来自底面的杂音,比如挂壁电视机。QUEST2用的是这种结构。

Endfire结构(端射阵列or差分麦克风阵列)图片Endfire是一种常见的麦克风阵列结构,麦克风之间间距为d,目标语音方向和麦克风之间的连线呈平行关系,目标语音先到达一个麦克风再到达另一个,如上图所示。

特点

  1. Endfire结构稍微复杂一些,先收到目标语音的麦克风信号与另一路麦克风延迟z^−n后的信号反向相加。
  2. Endfire的优点是能有足够的衰减,具体的衰减与延迟z^−n相关。
  3. Endfire的设计有两个变量,麦克风间距d和信号延迟z^−n 。
  4. Endfire适合用于有期望信号只来自端射方向,其他方向都是干扰的场景。

图片

4.2.2  二维平面阵列

平面阵列的组合方式比较多样化,常见的有4麦阵列和6麦阵列,还有升级的4+1麦阵列和6+1麦阵列,甚至8+1麦阵列。平面阵列常见于智能音箱和语音交互机器人上面。平面阵列的线性阵列可以实现平面360度有效拾音,麦克风个数愈多,空间划分精细度越高,语音增强和降噪效果越好,远场景识别效果好。缺点就是功耗较高,ID设计复杂。图片

4.2.3  三维立体阵列

立体阵列多是球状,或者圆柱体,可以实现真正的全空间360度无损拾音,解决了平面阵高俯仰角信号响应差的问题,效果是最好的,成本也是最高的。但是生活中用的比较少,常见于专业领域。图片

常见产品的麦克风阵列使用情况:

图片

4.3 麦克风陈列的作用

麦克风阵列一般用于声源定位、回声消除、噪声抑制、语音去混响等。

4.3.1  声源定位

人有两个耳朵,可以通过声音判断发声的方向,这个功能就是声源定位,通过声音感知人所在的方向,从而实现对目标声源方向的跟踪。常用到的技术是TDOA(Time Difference Of Arrival,到达时间差),简单理解就是通过计算信号到达麦克风之间的时间差,从而得到声源位置坐标的方程组,然后求解方程组即可得到声源的精确方位坐标。计算出声源的位置坐标,需要毫秒级的响应和计算。

4.3.2  回声消除

比如家庭场景下,你的音箱正在放音乐周杰伦的新歌,但是你想要查一下天气,这个时候你就会说“xxxx,今天天气”。回声消除的目的就是要去掉其中音乐信息而保留你的声音。

4.3.3  噪声抑制/人声增强

在语音识别中,语音信息中往往夹杂着环境噪音和人声干扰,通常不会掩盖正常的语音,只是影响声音的清晰度。麦克风阵列主要通过波束形成技术,来抑制噪音,增强人声。可以理解为只识别某个角度的声音(一般角度可以进行调节),其他角度的声音都会受到抑制,从而实现抑制噪音的目的。反过来也可以增强角度内的人声,就是增强人声。抑制噪音能够满足日常家庭的使用场景,但对于强噪音环境的抑制效果并不理想,典型的就是鸡尾酒效音。比如家庭场景,如果我们开着电视和空调在和音箱说话,音箱会以唤醒的它的角度为拾音区域,抑制非该角度的噪音(电视声音和空调噪音)。一般我们根据使用场景去设置拾音角度,使用距离越远,角度越小,常见为60°-120°之间。图片

4.3.4  语音去混响

混响(Reverberation)是指声波在室内传播时,被墙壁、天花板、地板等障碍物形成反射声,并和直达声形成叠加的现象。

图片

混响的作用

  • 混响是声学中最重要的现象之一
    • 合适的混响会使得声音圆润动听、富有感染力。
    • 混响时间太长会使得声音含糊不清,听不清楚。
  • 混响是建筑声学中要重点考虑的问题
    • 演讲厅要短一些的混响时间,比如北京学术报告厅混响时间为1s
    • 交响乐则需要长一些的混响时间,比如上海音乐厅混响时间为1.5s,维也纳音乐厅为2.05s
  • 过大的混响会带来音素的交叠掩蔽现象,严重影响语音识别效果,尤其是远距离语音识别。如智能音箱,如果不对混响进行处理,可能会出现叠加识别的情况。

目前主流采用麦克风阵列+深度学习的方式来进行去混响

4.4 麦克风阵列测试

语音识别测试:各种场景下(噪声、音乐)的唤醒率和识别率

(以上图片部分来自网络,侵删)

作者:抖音多媒体评测实验室

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论