VoXtream:一款开源的全流式零样本文本转语音模型,支持实时应用

实时语音代理、现场配音和同声传译都因千分之一秒的延迟而受阻。大多数“流式”文本转语音(TTS)系统仍需等待整段文本处理完毕才开始发声,导致听者在语音启动前会听到短暂的停顿。由KTH 皇家理工学院语音、音乐与听觉团队推出的VoXtream技术直击痛点:它在首个单词后即刻发声,以 80 毫秒为帧输出音频,并在现代 GPU(采用PyTorch编译)上实现102毫秒的首包延迟(FPL)。

何谓“全流式”TTS?它与“输出流式”有何区别?

输出流式系统虽分段解码语音,仍需预先获取完整输入文本,导致计时延迟。全流系统则实时处理接收到的文本(从大型语言模型逐词获取),并同步输出音频。VoXtream采用后者方案:它接收词流并持续生成音频帧,在保持低帧计算量的同时消除了输入端缓冲。该架构明确以首个词的起始点为目标,而非仅追求稳态吞吐量。

VoXtream:一款开源的全流式零样本文本转语音模型,支持实时应用

VoXtream 如何在不等待后续词汇的情况下开始说话?

核心技巧在于增量式音素转换器(PT)内部的动态音素前瞻机制。PT 最多可预览 10 个音素以稳定韵律,但无需等待完整上下文。生成过程可在首个词汇进入缓冲区后立即启动。这种设计规避了固定前瞻窗口带来的起始延迟。

VoXtream 底层模型架构是什么?

VoXtream 采用单一全自回归(AR)管道,包含三个变换器:

  • 音素转换器 (PT):仅解码器,增量式;动态前瞻≤10 个音素;通过 g2pE 在单词级别进行音素化。
  • 时间变换器 (TT):基于Mimi编解码器语义标记时长标记的 AR 预测器,该标记编码了单调的音素到音频对齐(“停留/离开”和每帧 {1, 2} 个音素)。Mimi 以12.5 Hz的频率运行(→ 80 毫秒帧)。
  • 深度变换器 (DT):用于剩余 Mimi声学码本的 AR 生成器,以 TT 输出和ReDimNet扬声器嵌入为条件,实现零样本语音提示。Mimi 解码器逐帧重建波形,实现连续发射。

Mimi 的流编解码器设计和双流标记化有据可查;VoXtream 使用其第一个代码本作为“语义”上下文,其余部分用于高保真重建。

实际运行中它真的很快吗?还是仅限于“纸面速度”?

该存储库包含一个基准脚本,用于测量FPL实时因子 (RTF)。在A100上,研究团队报告未编译时RTF 为 171 ms / 1.00 ,编译时RTF 为 102 ms / 0.17 ;在RTX 3090上,未编译时RTF 为 205 ms / 1.19 ,编译后RTF 为 123 ms / 0.19

与当今主流流式传输基准相比如何?

研究团队评估了短格式输出流全流场景。在LibriSpeech-long全流(文本逐字到达)中,VoXtream 的字错误率 (WER) (3.24%) 低于 CosyVoice2 (6.11%),并且在听众研究中,VoXtream 的自然度显著优于CosyVoice2 ( p ≤ 5e-10 ),而 CosyVoice2 在说话人相似度方面得分更高,这与其流匹配解码器的结果一致。在运行时,VoXtream 在所比较的公开流式系统中拥有最低的 FPL,并且编译后运行速度比实时速度快 5 倍以上(RTF ≈ 0.17)。

VoXtream:一款开源的全流式零样本文本转语音模型,支持实时应用
表 1
VoXtream:一款开源的全流式零样本文本转语音模型,支持实时应用

为何这种 AR 设计能在起始阶段胜过扩散/流堆栈?

扩散/流语音编码器通常分块生成音频,因此即使文本-音频交织机制设计精妙,编码器仍会对首个数据包延迟设置下限。VoXtream 保持每个阶段的 AR 与帧同步——PT→TT→DT→Mimi解码器——因此首个 80 毫秒数据包仅需通过堆栈一次即可输出,而非经过多步采样器处理。本文开篇回顾了先前的交错式与分块式方案,并阐释了 IST-LM 和 CosyVoice2 中采用的 NAR 流匹配解码器如何在离线质量优异的情况下阻碍低 FPL 实现。

VoXtream 在一个约 9000 小时的中型语料库上进行训练:其中约 4.5 千个 Emilia4.5 千个 HiFiTTS-2(22 kHz 子集)。团队通过日记法删除多说话人片段,使用 ASR 过滤转录本,并应用NISQA去除低质量音频。所有内容均重采样至24 kHz,数据集卡片详细列出了预处理流程和对齐工件(Mimi 标记、MFA 对齐、时长标签和说话人模板)。

除精心挑选的片段外,核心质量指标是否依然保持稳定?

表 1(零样本 TTS)显示,VoXtream 在SEED-TTS test-enLibriSpeech test-clean的WERUTMOS(MOS 预测器)和说话人相似度方面均具有竞争力;研究团队还进行了一项消融实验:添加CSM 深度变换器说话人编码器后,相似度显著提升,且与剥离基线相比,WER 损失不显著。主观研究采用了类似 MUSHRA 的协议和针对全流生成量身定制的第二阶段偏好测试。

VoXtream:一款开源的全流式零样本文本转语音模型,支持实时应用
来源:marktechpost.com

这项技术在 TTS 领域处于什么位置?

根据研究论文,VoXtream 被定位于近期交错式 AR + NAR 声码器方法和LM 编解码器堆栈之中。其核心贡献并非新的编解码器或庞大的模型,而是一种以延迟为中心的 AR 方案,加上一个可保留输入端流的时长标记对齐机制。如果您构建实时代理,那么重要的权衡显而易见:说话者相似度略有下降,而FPL比全流条件下的分块 NAR 声码器低几个数量级。

参考资料:
https://arxiv.org/pdf/2509.15969
https://huggingface.co/herimor/voxtream
https://github.com/herimor/voxtream

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/61811.html

(0)

相关推荐

发表回复

登录后才能评论