面向自然交互式对话人工智能的音频实时通信技术进展

作者：来自 Meta 的 Karim Helwani、Hoang Do，Sriram Srinivasan
译自：https://atscaleconference.com/advances-in-audio-real-time-communication-for-natural-and-interactive-conversational-ai/

人工智能语音助手无处不在，帮助我们保持井然有序、收集信息、提高工作效率，甚至还能带来娱乐。随着全球语音助手使用量的显著增长，Meta 一直走在行业前沿，将人工智能技术集成到其应用程序和可穿戴设备系列中。然而，任何使用过语音助手的人都知道，简单的对话都可能因为日常干扰而迅速出错，例如背景噪音、旁人交谈或回声，所有这些都可能错误地触发语音助手。

为了解决这些常见的痛点，让用户与人工智能的交互更加自然直观，Meta 开发了一套强大的多层音频人工智能技术栈。在这篇博文中，我们将介绍 Meta 如何开发这套多层音频人工智能技术栈，从而实现与人工智能语音助手更加自然直观的交互。

超越基础人工智能：免提全双工交互

我们的目标是实现与人工智能的真正免提全双工对话。想象这样一种人工智能：它始终在线，能精准识别说话者身份，并以完美时机和相关性作出回应。实现这一目标需要与人际沟通截然不同的方法。例如，人与人交流对回声、噪音等干扰几乎零容忍，而人机交互中可容许少量失真，这确保用户声音始终优先传输，同时不影响模型响应。

为此，我们优化了架构以实现即时连接、降低延迟并增强对数据包丢失的容错能力。通过采用包含真实环境背景噪声、重叠语音及回声场景的增强数据进行训练，我们提升了大型语言模型（LLM）的抗干扰能力，使其更具鲁棒性。

从人与人到人与机器人，实时通信（RTC）

传统的实时通信 (RTC) 是为人与人之间的对话而设计：AEC/NS/AGC → 编解码器 → RTP → 抖动缓冲区 → 解码器 → 播放。

对于机器人而言，需求和优先级有所不同。这些需求和优先级包括：

即时录音和突发传输：与人机通话不同，人机通话通常用户希望在语音会话开始时立即连接到机器人。人机通话中，用户通常会听到铃声，并且等待连接的时间也比较长。为了实现这一点，一旦用户按下通话按钮并确认与机器人通话的意图，我们便会立即开始录音和缓冲音频，甚至在与服务器建立连接之前就开始了。连接建立后，我们会以远超实时的速度（即每秒超过 50 个数据包）将缓冲好的音频突发传输到服务器。
AI 优化的抖动缓冲：与人际交流不同，机器人无需每 10 或 20 毫秒接收一次数据包。它也不需要像人类那样为了理解而补偿网络抖动。因此，我们针对丢包恢复和短暂延迟进行了优化，而非模拟人类的对话节奏。
AEC/NS针对重复对话进行了优化：我们优先保留用户的声音，以帮助机器人理解用户意图，即使这会导致少量回声/噪音。当用户打断机器人的回复时，这一点尤为重要。

这些传输和客户端音频处理优化降低了感知延迟并提高了系统鲁棒性。虽然我们使用增强数据（包括噪声、重叠、回声和麦克风外语音）训练后端，使LLM学习忽略干扰因素，但这还不够。故障难以定位，难以整合人工反馈，迭代速度也较慢。因此，我们借鉴了工程史上的经验，采用了模块化方法。

模块化：多层音频AI堆栈

我们开发了一套模块化音频堆栈。该设计（如图1所示）能简化调试流程并加速迭代，在 LLM 处理前就可预先过滤干扰信号。

面向自然交互式对话人工智能的音频实时通信技术进展 — 图1：人机实时通信系统概览

如图 2 所示，该堆栈的关键模块包括：

1. 近/远说话人检测：

这是由我们的语音清晰度检测器 (VCD) 模块完成的。它能识别说话者的距离，区分近场用户和远场用户，例如其他说话者或电视机。这是抵御侧向语音的第一道防线。检测器会分析与距离和直达声/混响能量相关的频谱线索。这个基于数字信号处理 (DSP) 的前置模块结合了基于深度学习的降噪器，无需生物特征识别即可判断“这是语音吗？它是否足够清晰，有可能是对我们说的？”它使用的特征包括：

能量：衡量语音信号的整体功率。
频谱质心：代表音频频谱的“质心”，与声音亮度相关。
清晰度：一项独特的功能，它通过分析信号的自相似性来量化直达声与混响声的比例。这可以告诉我们说话者与听众的距离以及混响的影响。

近/远说话人检测的工作原理：在初始训练阶段（仅检测语音的前0.5秒），系统利用提取的特征构建一个轻量级的多变量高斯混合模型（GMM），用于描述主要说话人的声学特征。在后续推理过程中，系统会将每个音频帧与该模型进行比对，以确定语音来自主要说话人的可能性，从而有效地滤除背景噪声。该系统具有出色的自适应性，其动态重学习机制能够响应声学特性的显著变化（例如，麦克风切换），并使用单侧累积和控制图（CUSUM）算法来监控清晰度值。该系统既可以部署在服务器端以实现稳健的处理，也可以部署在客户端以实现即时响应，并且可以与噪声抑制系统结合使用，从而获得更高的准确率。

2. 主要说话人分割（谁在什么时候说话？）

为了实时追踪说话人（无需注册），我们使用了一个轻量级的时延神经网络（TDNN）骨干网络，该网络采用基于MFCC的因果多尺度卷积，速度足够快，可以进行流式传输，并且信息足够丰富，能够分离人声。其上叠加迭代剥离模块，用于逐步提取说话人嵌入向量。

传统的说话人分割系统通常存在一些显著缺陷：它们计算量大、需要离线处理或需要显式地注册说话人。此外，许多系统会处理所有检测到的语音，即使其中包含无关的背景杂音。

我们的主要说话人分割（PSS）系统通过一系列创新方法来应对这些挑战：

智能前景过滤：作为预处理步骤，我们的前景/背景分类器（即语音清晰度检测器）确保只有明确指向设备的语音才会被传递给人声分割引擎。这通过忽略无关声音来节省计算资源并提高准确率。
资源自适应处理：我们的系统能够智能地在轻量级深度神经网络 (DNN)（适用于功能强大的设备）和纯基于 DSP (MFCC) 的流水线（适用于资源受限的硬件）之间切换。
无需注册：我们的系统能够即时自适应地学习说话人模型，无需任何预先设置即可识别新的说话人。
动态聚类和合并：我们采用自适应阈值和“候选聚类”方法来识别新的说话者，确保稳定性并实时合并任何重复的聚类。
注重隐私的多发言者用户界面：当多个发言者同时发言时，我们的系统不会自动处理所有音频。而是会提示用户，询问是否希望将其他发言者的音频纳入后续处理。这既尊重了用户隐私，又提供了更清晰的用户体验。

深入地了解一下它的工作原理：

前景/背景分类依赖于能量、频谱质心和清晰度等声学特征。一个简单的多元高斯模型，利用检测到的语音的前0.5秒进行快速训练，有助于识别目标设备语音。

人声分割的核心是我们轻量级的TDNN架构，专为实时流式传输而设计。它处理MFCC特征，并通过一个“迭代剥离模块”将其细化为判别性嵌入。该模块可以看作是一个针对不同说话人的循环神经网络。该网络使用复合损失函数进行训练，以促进说话人切换识别、生成清晰的嵌入以及正确处理混合音频。最终效果是：一个说话人对应一个头部，即使在声音重叠的情况下也能保持稳定。结果：更少的误触发和更快的响应速度。

以下是两段真实的 MetaAI 通话录音，背景电视声音很大。第一段录音中，我们的 PSS 解决方案未启用，机器人被背景电视的声音打断。第二段录音中，我们的 PSS 解决方案已启用，机器人没有受到背景电视声音的干扰。

PrimarySpeakerSegmentationDemoNew.mp4

3. 回声控制

我们结合了客户端回声消除（AEC，用于消除声学回声路径）和服务器端回声控制，以捕捉残留回声并防止机器人对自己的声音做出反应。我们的系统通过识别文本转语音（TTS）特征并在服务器端进行屏蔽来实现回声控制，为此我们使用了两个主说话人分割模块实例：一个用于麦克风输入，另一个用于TTS信号。作为额外的安全措施，我们还实现了一个基于 DSP 的回声抑制模块，该模块在与分词器输入信号表示对齐的子带域中运行，以最大程度地减少对识别的影响。

以下是与 AI 机器人对话的两段录音：（a）在没有回声抑制的情况下，机器人会被自己的回声打断并做出回应；（b）有了回声抑制，对话进行得很顺利。

这些模块，以及一个端点处理器（它利用用户“回合结束”的语义信息，即人机交互中用户对话或交互结束、轮到计算机或系统响应的点），共同为 LLM 提供更清晰、以用户为中心的音频。端点处理器还利用语义信息和用户说话模式来判断用户回合结束，防止机器人打断用户。由于每个模块都是可观察和可调整的，因此当用户反馈指出问题时，我们可以快速迭代。

这些改进已经取得了良好的效果。在内部测试中，针对嘈杂且对话密集的场景，该技术栈的表现令人满意：

减少背景噪音和旁语干扰（例如，某些“AI 回复错误内容”类别减少 50% 以上）
得益于突发式传输和人工智能优化的抖动缓冲，感知延迟更低。
由于 LLM 接收到更清晰、更简短的提示，因此容量得到提升。

（实际效果会因设备、房间和播放音量而异；我们会持续追踪实时指标和用户反馈。）

结论与展望

卓越的语音用户体验并非仅仅源于更强大的 LLM。它需要对整个系统进行全面优化：针对机器人优化的传输、保护用户语音的信号处理，以及可快速检查和改进的模块化人工智能。唯有如此，我们才能打造出像真人一样聆听和回应，并且懂得何时不该回应的语音助手。

我们将这些先进技术应用到了 Meta 系列应用（WhatsApp、Instagram、Facebook、Messenger、MetaAI）中，让您可以免提寻求帮助，即使在现实世界的嘈杂环境中也能获得自然的回应。

未来人工智能实时通信的发展方向包括开发更智能的编解码器，优先向模型传输语义相关的信息，而非原始数据。此外，重点在于提供更丰富的设备边缘上下文信息，涵盖设备状态、距离和媒体感知等，从而实现更流畅、更自然的AI交互。最后，促进人机实时通信构建模块的互操作性和标准化，将使不同生态系统中的模块组合更加灵活。这些努力旨在创建标准化的编解码器，以实现响应迅速、可靠的人机通信，并通过高效地传输关键信息（可能以非对称、快速和响应的方式），增强AI的上下文和情境感知能力。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/yinshipin/63607.html