Tavus推出Sparrow-1，在实时语音视频中实现媲美人类的对话时序处理能力

致力于打造具备视觉、听觉及实时响应能力的拟真AI人类的人机计算公司 Tavus 推出 Sparrow-1 对话流程控制模型，旨在为实时语音和视频AI赋予人类级别的时序感知能力。

Sparrow-1 使 AI 系统能够判断何时倾听、等待或发言，并在人类听众会做出反应的时机做出回应，而不是一味追求速度。该模型现已在Tavus 的所有 API 和产品中全面推出，并已在 Tavus PAL 和企业部署中为对话体验提供支持。

对话式 AI 在语言生成和语音合成方面取得了快速进展，但时序控制仍然是一个持续存在的挑战。大多数语音系统依赖于基于静音的端点检测，等待语音停止后才做出响应。这种方法会引入延迟，导致过早中断，并破坏对话的流畅性。

Sparrow-1 采用了一种不同的方法。它不会对沉默做出反应，而是持续模拟对话节奏，在意图明确时立即做出回应，而在存在不确定性时则有意识地等待。这使得对话感觉更加专注、自然且人性化。

Sparrow-1 是专为 Tavus 对话视频界面（CVI）中的实时对话视频构建的对话流程控制模型。该模型摒弃了将发言交接视为终点检测问题的传统思路，转而在帧级别预测对话主导权归属，从而实现主动式、具备中断感知能力的轮流发言转换。

主要功能包括：

Sparrow-1 作为一个独立的定时和控制层，可以与模块化语音管道集成，同时恢复自然的对话流程。

为了评估真实的对话行为，Tavus 使用 28 个具有挑战性的真实世界对话音频样本，对 Sparrow-1 与领先的轮流发言系统进行了基准测试，这些样本旨在发现犹豫、重叠和模棱两可的发言结束。

在这些评估中，Sparrow-1 取得了以下成绩：

相比之下，现有系统被迫在两种选择中做出抉择：要么等待数秒以避免中断，要么以频繁中断为代价快速响应。结果表明，对话式 AI 中常见的速度与正确性之间的权衡，是基于沉默机制的设计所致，而非对话本身固有的属性。

教会 AI 如何像人一样交流，需要它们学习对话的技巧。在运行时，Sparrow-1 会不断适应每个说话者，随着对话的展开学习语调、停顿时间和犹豫模式。该模型会将填充词、尾音、韵律节奏和情感语调融入到其时间决策中。

当出现中断时，Sparrow-1 能够实时解决，在几十毫秒内区分有意抢占发言权和无意重叠。随着对话的进行，其计时功能会逐渐与说话者同步，从而产生更流畅、更自然的互动。

Sparrow-1 目前已在 Tavus API 和产品中全面推出，并为 Tavus PAL 和企业部署中的对话体验提供支持。

关于 Tavus

Tavus是一家位于旧金山的AI研究公司，致力于开创人类计算的新时代，构建以适应性强、具备情感智能的AI人为核心的计算体系。Tavus开发的基础模型使机器能够以人类感觉自然的方式去看、去听、去回应和去行动。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/zixun/64426.html