Tavus推出Sparrow-1,在实时语音视频中实现媲美人类的对话时序处理能力

致力于打造具备视觉、听觉及实时响应能力的拟真AI人类的人机计算公司 Tavus 推出 Sparrow-1 对话流程控制模型,旨在为实时语音和视频AI赋予人类级别的时序感知能力。

Tavus推出Sparrow-1,在实时语音视频中实现媲美人类的对话时序处理能力

Sparrow-1 使 AI 系统能够判断何时倾听、等待或发言,并在人类听众会做出反应的时机做出回应,而不是一味追求速度。该模型现已在Tavus 的所有 API 和产品中全面推出,并已在 Tavus PAL 和企业部署中为对话体验提供支持。

对话式 AI 在语言生成和语音合成方面取得了快速进展,但时序控制仍然是一个持续存在的挑战。大多数语音系统依赖于基于静音的端点检测,等待语音停止后才做出响应。这种方法会引入延迟,导致过早中断,并破坏对话的流畅性。

Sparrow-1 采用了一种不同的方法。它不会对沉默做出反应,而是持续模拟对话节奏,在意图明确时立即做出回应,而在存在不确定性时则有意识地等待。这使得对话感觉更加专注、自然且人性化。

对话时序的新模型

Sparrow-1 是专为 Tavus 对话视频界面(CVI)中的实时对话视频构建的对话流程控制模型。该模型摒弃了将发言交接视为终点检测问题的传统思路,转而在帧级别预测对话主导权归属,从而实现主动式、具备中断感知能力的轮流发言转换。

主要功能包括:

  • 音频原生、流媒体推理,保留韵律和时间线索
  • 明确建模对话主导权
  • 无需校准或微调即可实时调整扬声器
  • 优雅地处理中断、重叠和犹豫
  • 基于对话确定性的动态响应延迟

Sparrow-1 作为一个独立的定时和控制层,可以与模块化语音管道集成,同时恢复自然的对话流程。

人类对话基准测试

为了评估真实的对话行为,Tavus 使用 28 个具有挑战性的真实世界对话音频样本,对 Sparrow-1 与领先的轮流发言系统进行了基准测试,这些样本旨在发现犹豫、重叠和模棱两可的发言结束。

Tavus推出Sparrow-1,在实时语音视频中实现媲美人类的对话时序处理能力

在这些评估中,Sparrow-1 取得了以下成绩:

  • 100% 的准确率和召回率
  • 零中断
  • 55毫秒的中位响应延迟

相比之下,现有系统被迫在两种选择中做出抉择:要么等待数秒以避免中断,要么以频繁中断为代价快速响应。结果表明,对话式 AI 中常见的速度与正确性之间的权衡,是基于沉默机制的设计所致,而非对话本身固有的属性。

专为人类实际说话方式而设计

教会 AI 如何像人一样交流,需要它们学习对话的技巧。在运行时,Sparrow-1 会不断适应每个说话者,随着对话的展开学习语调、停顿时间和犹豫模式。该模型会将填充词、尾音、韵律节奏和情感语调融入到其时间决策中。

当出现中断时,Sparrow-1 能够实时解决,在几十毫秒内区分有意抢占发言权和无意重叠。随着对话的进行,其计时功能会逐渐与说话者同步,从而产生更流畅、更自然的互动。

Sparrow-1 目前已在 Tavus API 和产品中全面推出,并为 Tavus PAL 和企业部署中的对话体验提供支持。

关于 Tavus

Tavus是一家位于旧金山的AI研究公司,致力于开创人类计算的新时代,构建以适应性强、具备情感智能的AI人为核心的计算体系。Tavus开发的基础模型使机器能够以人类感觉自然的方式去看、去听、去回应和去行动。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/64426.html

(0)

相关推荐

发表回复

登录后才能评论