【论文解读】BareWave：扔掉声码器，让 AI 语音复刻“一步到位”

近年来，零样本语音复刻技术快速发展，AI 已经能够仅凭一段文本和一小段参考音频，合成出自然度颇高的目标说话人语音。然而，在生成质量持续提升的同时，一个更基础的问题仍未被认真回答：

模型是否一定要先生成一段中间声学表示，再交给独立的声码器把它”渲染”成波形？

主流零样本 TTS 普遍采用这种”先生成中间表示、再渲染波形”的两阶段范式。模型先预测 mel 频谱、声学 token 或潜空间表征，再由一个单独训练的 vocoder 完成最终的波形合成。这套范式之所以流行，是因为它把语音生成与波形渲染解耦，使训练和工程都更易控制。代价则是，推理阶段始终要保留一个外部声学接口和一个独立声码器，模型从未真正离开”中间表征 + 声码器”的依赖。

BareWave正是为这一问题而提出。它定义并实现了一个全波形原生（waveform-native）的流匹配 TTS 框架：在推理时，BareWave 仅保留一个直接生成波形的生成器，输入文本与参考音频，输出目标说话人的波形采样点，不依赖任何中间声学表示，也不外接独立声码器。

项目主页（含音频 demo）：https://barewave.github.io/

【论文解读】BareWave：扔掉声码器，让 AI 语音复刻“一步到位” — 图1：主流 TTS 流水线依赖中间表征与独立波形声码器，BareWave 则是全波形原生的单一生成路径

什么是全波形原生零样本 TTS？

BareWave 提出了一个更彻底的零样本 TTS 设定：从文本与一小段提示音频出发，单一模型直接生成目标说话人的波形采样点，整条推理路径上不引入任何中间声学表示（mel 频谱、声学 token、潜空间表征等）、不外接预训练编码器、也不附加单独的声码器。

简单来说，BareWave 将”语音生成”与”波形合成”压缩进同一个模型，由它一次性完成全部工作，从而把整个零样本 TTS 的推理图，简化为一条从文本和提示音频直达波形采样点的直接生成路径。‍

BareWave 是怎么做到的？

BareWave的核心设计可以概括为两个部分：

直接基于波形的模型架构，和基于表征对齐、噪声调度和速度感知对齐的训练流程。

模型架构

BareWave 的生成器直接构建在波形 patch 上。原始波形先经一维卷积 patchify 切成 patch token，作为生成器的主信号流；提示音频以两条平行路径接入——一条直接采用原始波形 patch 以保留细粒度时域信息，另一条经卷积前端下采样至 patch 速率以提供更全局的上下文，二者拼接形成层级化的提示流。

文本侧以 character 粒度进入，先由轻量 ConvNeXt 块处理，再作为 in-context token 注入序列左侧。整体序列由 DiT 块处理，配合时间步调制与旋转位置编码，预测 patch-wise 干净波形，再经 unpatchify 还原为采样点。

‍训练流程

训练流程围绕三项设计展开：训练期表征对齐、分阶段噪声调度，以及速度感知感知对齐（Velocity-Aware Perceptual Alignment, VAPA）。三者只作用于训练阶段，推理阶段全部移除，生成器的推理路径不会因此变重。

首先，BareWave 采用训练期表征对齐为波形生成器注入语音先验。 在原始波形上从零训练，模型缺少一个像 mel 或 codec 空间那样天然带先验的”工作台”。BareWave 选取生成器中间层的一处隐状态，经过一个轻量对齐头后，与一个冻结的 WavLM 教师特征做余弦对齐。

对齐分支只在训练阶段挂在生成器一侧，推理时连同教师一起整体移除。这相当于在原始波形空间中借入了一份隐性的预训练结构，让 BareWave 更稳地组织语言、说话人与声学信息。

其次，BareWave 引入分阶段噪声调度，让训练在不同阶段聚焦不同的子问题。 流匹配训练对噪声水平 t 的采样分布非常敏感：早期希望快速收敛，更适合把 t 集中在中等噪声；后期则希望细化低噪声端的预测，更适合把更多采样落在接近干净端的状态。

BareWave 因此采用两段式调度——前段使用 logit-normal 分布，把训练聚焦在中等噪声以加速收敛；越过预设切换点后，调度切换为均匀分布（uniform），使采样覆盖更多清洁状态，便于在训练的后期进一步打磨细节。最后，BareWave 在流匹配损失之外引入一个谱域感知损失，并通过速度感知缩放（VAPA）让其与流匹配损失的时间结构对齐。 波形生成往往需要使用频谱距离作为感知损失。然而在 BareWave 采用的 x-预测/v-loss 框架下，流匹配损失会对数据空间预测误差引入一个 1/(1-t)² 的隐式时间权重，在接近清洁端被显著放大；而数据空间中带固定系数的多分辨率 STFT 感知损失并不携带这一权重，相对强度在低噪声区间反而被压低。为此，BareWave 在感知损失上施加一项 (1-t)^(-γ) 的时间缩放，使其随时间增长的强度与流匹配损失对齐；γ = 1 时正好对应 L1 谱距离在 x-空间到 v-空间转换中获得的缩放比例。感知损失仅在训练后期启用，把谱域感知细化真正落在最关键的时间区间。

‍实验结果：内容更清晰，说话人更相似

BareWave 在 Seed-TTS test-en 与 LibriSpeech-PC test-clean 两个零样本语音复刻基准上进行了系统评估，统一沿用 F5-TTS 的评测协议，报告内容清晰度 WER、说话人相似度 SIM-o 与感知自然度 UTMOS。

在同等训练数据条件下（Emilia 英文子集，约 19.4k 小时），BareWave 在 Seed-TTS test-en 上的 WER 与 SIM-o 在同等数据系统中均为最佳；在 LibriSpeech-PC 上取得 2.88% WER 与 0.614 SIM-o，相较中间表示路线的同档基线，三项指标均有竞争力。

这说明，BareWave 在不依赖任何中间表征与外部声码器的前提下，依然能在内容清晰度（WER）与说话人保持（SIM）上达到与中间表示路线相当甚至更优的水平。

总结

BareWave 给出了一份完整的全波形原生零样本 TTS 训练方案：在推理侧坚持极简，把表征对齐、分阶段噪声调度与速度感知感知对齐留在训练侧，分别回应波形空间在先验、调度与感知监督上的三类挑战。实验结果表明，全波形原生流匹配 TTS 完全可以作为零样本语音合成的一条可行方向：在不引入任何中间声学表示或独立声码器的前提下，达到甚至超过同训练数据的中间表示系统的零样本表现。