Meta利用视觉信息来优化3D音频模型，未来将用于AR/VR

我们知道，Meta为了给AR眼镜打造智能助手，专门开发了第一人称视觉模型和数据集。与此同时，该公司也在探索一种将视觉和语音融合的AI感知方案。相比于单纯的语音助手，同时结合视觉和声音数据来感知环境，可进一步增强智能助手的能力，比如模拟人类感知世界的方式，来理解声音在空间的传播方式。

285552517_521041373031850_6248224460722473825_n

Meta表示：在元宇宙社交、AR观影等多种场景中，声音都扮演了重要的角色。为了满足沉浸式AR/VR场景的需求，Meta决定采用AI来实现高保真的音质，并与沉浸的空间逼真匹配。

为此，Meta AI科研人员和Reality Labs音频专家、德克萨斯大学奥斯汀分校科研人员合作，开发了三个专为AR/VR打造的声音合成AI模型：Visual Acoustic Matching Model（视听匹配模型）、Visually-Informed Dereverberation（基于视觉信息的抗混响模型）、VisualVoice（利用视听提示将对话和背景音区分）。它们特点是可对视频中人类对话和声音进行视听理解，并与3D空间定位进行匹配，实现沉浸的空间音频效果。

简单来讲，这种AI模型根据外观和声音来理解物理环境。我们知道，声音在不同的物理空间中听起来也会有不同，比如在山洞里你会听到自己说话的回声，而在音乐厅和客厅两种不同规模的空间中，声音传播效果也不相同。这是因为，声音传播路径受到空间结构、材料和表面纹理、距离等因素影响，因此听起来会有所不同。

一，Visual Acoustic Matching Model（视听匹配模型）

在这个模型中输入在任何场景录制的音频片段，以及一张目标场景的图像，便可以将录音片段与目标场景融合，音频听起来就像是在目标场景中录制的那样。比如，可以将洞穴中录制的音频与餐厅图像融合，输出的语音听起来就会像在餐厅中录制的那样。

通常在看一段视频时，如果视频的声音和视觉不匹配（不符合传统认知），会造成不自然的体验，人可以轻易发现这种差异，并认为视频声音为后期配音。

利用声音模型，科研人员可模拟声音在房间中传播产生的脉冲，来重现空间的声学效果。但这种方式需要结合空间3D网格，来测定空间的几何结构、材料属性。在大多数情况下，这些信息并不是已知的，因此声学模型难以实现。

科研人员指出，也可以根据在特定空间中捕捉的音频，通过声音在目标空间中产生的混响，来预测声学特性，但缺点是智能获得有限的声音信息，因此模拟效果通常不够好。

为了解决上述问题，Meta科研人员创建了一个名为AViTAR的自监督视听匹配模型，特点是可通过调整音频，来与目标图像中的空间匹配。AViTAR是一个交叉感知模式转化模型，它可以通过复合模式推理，将输入的视听数据转化成视觉和听觉匹配的高保真数据。此外，AViTAR模型可利用任意网络视频，来进行自我监督训练，练习匹配声音和图像。

Meta为AViTAR创建了两个数据集，其中一个建立在开源AI视听平台SoundSpaces基础上，另一个数据集包含了29万个公开可用的英语对话视频（3到10秒片段）。据悉，SoundSpaces是Meta在2020年开源的AI平台，其特点是建立在虚拟仿真平台AI Habitat之上，可模拟高保真、逼真的声源，并插入到Replica、Matterport3D等开源的真实场景扫描环境中。

这两个数据集主要包含了室内场景中的对话，目的是为了探索未来AI语音和视觉助手在室内的应用场景。细节方案，数据集中的视频拍摄也有要求，麦克风和摄像头在同一个位置，并且远离声源。

为了训练AI模型识别声音和场景不匹配，Meta科研人员还制作了一系列音画不匹配的随机合成视频，并加入噪声。

利用这些数据，科研人员验证了视听匹配模型的效果，结果发现该模型可成功将对话与目标图像场景融合，效果比传统的纯音频声学匹配方案更好。

二，Visually-Informed Dereverberation（基于视觉信息的抗混响模型）

和上一个模型相反，Visually-Informed Dereverberation（VIDA）专注于消除混响，比如去除声音在洞穴中传播产生的回声。该模型根据视听提示，来优化、筛选音频中的混响。在热闹的火车站场景中，该模型可以提取小提琴演奏的声音，并去除小提琴声与火车站场景交互而产生的回响，好处是可以让小提琴声音听起来更纯粹。