语音增强中的自监督学习：从无配对训练到基础模型先验

作者：AudioCC Lab
来源：听觉认知与计算声学实验室

一、背景：为什么语音增强比 ASR 更需要自监督学习

当前 SE 面临四个典型矛盾：第一，数据矛盾。高质量 noisy-clean 配对样本构造成本高，真实噪声、混响和设备失真又具有强场景依赖性；第二，目标矛盾。SE 不只要“把噪声压下去”，还要尽量保住语义内容、说话人音色、韵律和自然度；第三，任务矛盾。面向 ASR、说话人识别、通话增强、助听器等不同下游时，单一前端往往存在任务失配；第四，生成式矛盾。近年的生成式 SE 感知质量更强，但在低 SNR 下可能出现内容改写或音色漂移。

在这样的背景下，SSL 在语音增强中逐渐演化出三类角色：其一，用未配对数据直接学习 clean prior；其二，用预训练表征替代或增强传统频谱特征；其三，用 foundation model 的高层语言/音系先验约束生成过程。与其说 SSL 只是“少标签条件下的替代方案”，不如说它正在重塑 SE 的训练目标与系统边界。

论文速览：语音增强中的 SSL 技术地图

技术方向	代表工作	核心思路	关键价值
直接自监督	Wang et al., 2020	clean/noisy 共享潜空间，无需严格配对标签	证明 SE 可自监督训练
个性化自监督	Sivaraman et al., 2021	把目标说话人的 noisy 录音当作伪源并做净化	适合零/少样本个性化
SSL 表征评测	Huang et al., 2022	系统比较 13 个 upstream 在 SE/SS 上的效果	确认 SSL 特征对 SE 有效
表征+频谱融合	Hung et al., 2022	SSL embedding 与 spectrogram 跨域融合	补足细粒度重建信息
预训练初始化	Zhao et al., 2022	WavLM 初始化因果 DEMUCS，并结合 VQ	面向实时部署
合成式增强	Irvin et al., 2023	基于 SSL 前端搜索 + denoising vocoder 直接合成	打开生成式 SE 路线
表示空间损失	Sato et al., 2023/2025	在 SSL 表征域优化 enhanced 与 clean 的距离	兼顾下游通用性
Foundation prior	WavLM → PASE	用通用语音先验约束生成，抑制 hallucination	向更稳健的生成式 SE 过渡

二、路线一：不依赖成对标签，直接从数据中学 clean prior

1. 共享潜空间：Self-supervised Learning for Speech Enhancement（ICML 2020）

这项工作是语音增强自监督路线中的代表性起点。作者构建了 clean autoencoder 与 mixture autoencoder，并让二者共享潜空间：前者用少量干净语音学习“clean speech manifold”，后者则在真实噪声混合语音上训练，并通过共享表征把 noisy 映射到 clean 对应的隐空间。它的重要意义不只在于性能本身，更在于第一次较清晰地说明：SE 并不必然依赖严格对齐的 noisy-clean 标签，也可以通过“干净语音先验 + 混合语音自重建”的方式自举出可用的增强模型。

2. 个性化自监督：Personalized Speech Enhancement through Self-Supervised Data Augmentation and Purification（Interspeech 2021）

个性化 SE 是 SSL 特别适合切入的场景。该工作指出，面向真实用户时，往往拿不到足够多的个人干净语音，但可以获得大量“用户自己的 noisy speech”。作者因此把目标说话人的 noisy 录音当作 pseudo-source，再注入训练噪声构造伪任务，并引入 SNR predictor 对伪源做逐帧加权净化。这个设计把“没有标注、但有个体数据”的现实约束转化为可训练目标，也让 SE 往隐私友好、零/少样本自适应的方向迈出了一步。

3. 从掩码估计走向直接合成：Self-Supervised Learning for Speech Enhancement through Synthesis（ICASSP 2023）

这篇工作进一步把 SSL 与生成式 SE 结合起来。作者不再把增强局限于时频掩码或判别式回归，而是提出 denoising vocoder（DeVo）：先在 15 个 SSL 前端中搜索最合适的表征，再让 vocoder 直接从 noisy representation 合成 clean speech。其亮点在于，它既展示了 SSL 表征对语音合成式增强的可迁移性，也给出了可流式运行的因果版本，在 10ms 延迟下仍保持较小性能损失，说明 SSL 不是只能服务“重离线模型”，也有望进入实时场景。

三、路线二：把 SSL 模型当作 SE 的“高级表征”

1. 先弄清楚 SSL 表征到底能不能用于 SE：Investigating Self-Supervised Learning for Speech Enhancement and Separation（ICASSP 2022）

这篇工作完成了一个非常关键、但经常被忽视的步骤——系统评测。作者在 VoiceBank-DEMAND 和 Libri2Mix 上比较了 13 个 SSL upstream，发现部分 SSL 表征在增强与分离任务上能稳定优于 STFT magnitude 和 log-Mel filterbank 等传统输入特征。更重要的是，这项工作把 SE/SS 纳入 SUPERB 的官方下游任务中，等于为社区建立了一个“SSL 能否真正帮助增强”的共同测试基线。

2. 表征不够细，就和频谱融合：Boosting Self-Supervised Embeddings for Speech Enhancement（Interspeech 2022）

Hung 等人敏锐地指出：SSL embedding 很擅长携带高层语音信息，但直接拿来重建波形时，细粒度细节仍可能不足。为此，他们把 SSL 表征与 spectrogram 做跨域融合，并进一步分析 clean-noisy distance（CN distance）与层选择的关系。一个很有启发性的发现是：对 SE 而言，并不是“越抗噪的层越好”，反而某些保留更多细节、噪声鲁棒性没那么强的层更重要。这使得“选哪一层、如何融合”成为后来 SSL-for-SE 工作中的核心问题。

3. 预训练不仅能当特征，还能当初始化：Speech Enhancement Using Self-Supervised Pre-Trained Model and Vector Quantization（APSIPA ASC 2022）

这项工作把思路往工程化推进了一步。作者使用 WavLM 初始化因果 DEMUCS 的编码器和瓶颈层，并在瓶颈后加入 vector quantization，对 noisy representation 做离散化，再送入解码器重建 clean waveform。背后的直觉是：离散 token 化有助于压制噪声成分，同时保住更稳定的语音结构。与单纯“把 SSL 当外部特征拼进去”相比，这条路线更接近把预训练模型嵌入 SE 主干网络本身，也更契合实时通信场景。

4. 从波形损失转向表示空间损失：Downstream Task Agnostic Speech Enhancement with Self-Supervised Representation Loss（Interspeech 2023）与 Generic Speech Enhancement with Self-Supervised Representation Space Loss（2025）

Sato 等人的工作把问题进一步提升到了“增强是为了谁”这一层面。传统 SE 多在波形或频谱域优化，容易偏向感知指标，却未必对 ASR、说话人相关任务或其他未知后端最友好。为缓解这种失配，作者提出在 SSL 表征域最小化 enhanced 与 clean 之间的距离，让增强模型主动保留高层任务相关信息。2023 年版本首先提出 downstream-task-agnostic 的 representation loss；2025 年期刊版则更明确地把目标定义为“generic speech enhancement front-end”，强调同一增强前端可以服务多种未知下游。

四路线三：从“表征增强”走向“先验约束生成”

1. WavLM：为语音增强提供更强的通用语音先验

虽然 WavLM 本身不是专门为 SE 设计的增强模型，但它对整个领域的影响非常直接。与更早期的 wav2vec 2.0 / HuBERT 相比，WavLM 在预训练阶段显式引入了 masked speech denoising and prediction，并把训练规模扩展到 94k 小时级别的更大、更杂语料。与此同时，SUPERB 也把 Speech Enhancement、Speech Separation、Voice Conversion 等任务纳入统一评测。对 SE 研究者来说，WavLM 的意义在于：它让“强鲁棒语音先验”成为可复用基础设施，为后续的增强、分离、说话人保持与生成式建模都提供了更可靠的表示起点。

2. PASE：把 WavLM 的音系先验拿来约束生成式增强（AAAI 2026）

在生成式 SE 进入扩散、流匹配和语言模型时代后，一个越来越现实的问题是 hallucination：模型虽然听起来“更自然”，却可能改写词内容，或者合成出与原说话人不一致的音色。PASE 的核心贡献，是把这类问题明确拆成 linguistic hallucination 和 acoustic hallucination 两类，并尝试用预训练 WavLM 的 phonological prior 进行约束。具体来说，作者先通过 representation distillation 把 WavLM 适配成 denoising expert，再用 dual-stream vocoder 联合高层音系表示与低层声学表示，从而同时兼顾内容准确性与说话人保真度。这个思路意味着：未来高质量 SE 不只是“生成得更像语音”，还要“生成得更可信”。

观察与判断

训练目标正在从“重建干净波形”转向“保留任务相关表示”。
模型形态正在从判别式掩码估计扩展到生成式合成，但必须引入更强先验来抑制 hallucination。
应用边界正在从通用增强前端扩展到实时通信、个性化增强和未知下游泛化。
评价标准也在变化：仅靠 PESQ、STOI 已经不够，内容正确率、说话人一致性和下游任务收益变得同样重要。

五结语

整体来看，语音增强中的 SSL 已经不再只是“监督数据不够时的权宜之计”。从 Wang 等人的共享潜空间范式，到 Sivaraman 系列工作在个性化场景下的自监督自举，再到 Huang/Hung/Zhao/Sato 等人把 SSL 表征真正嵌入增强系统，再到 PASE 这样把 foundation prior 用于抑制生成式 hallucination 的最新工作，SE 的研究范式已经发生明显变化。

未来值得重点关注的方向至少有三条：一是面向多任务、多后端的统一增强前端；二是面向低 SNR、强混响与真实设备失真的更稳健生成式模型；三是把语音 foundation model 中的内容、说话人、韵律与环境先验进一步可控地拆解出来，服务于“增强但不改写”的可靠语音生成。对于 SE 而言，自监督学习真正带来的，不只是更少标签，而是更强先验与更宽系统设计空间。

六参考文献与延伸阅读

[1] Wang, Y.-C., Venkataramani, S., & Smaragdis, P. Self-supervised Learning for Speech Enhancement. ICML, 2020.

[2] Sivaraman, A., Kim, S., & Kim, M. Personalized Speech Enhancement through Self-Supervised Data Augmentation and Purification. Interspeech, 2021.

[3] Huang, Z., Watanabe, S., Yang, S.-w., Garcia, P., & Khudanpur, S. Investigating Self-Supervised Learning for Speech Enhancement and Separation. ICASSP, 2022.

[4] Hung, K.-H., Fu, S.-W., Tseng, H.-H., Chiang, H.-T., Tsao, Y., & Lin, C.-W. Boosting Self-Supervised Embeddings for Speech Enhancement. Interspeech, 2022.

[5] Zhao, X.-Y., Zhu, Q.-S., & Zhang, J. Speech Enhancement Using Self-Supervised Pre-Trained Model and Vector Quantization. APSIPA ASC, 2022.

[6] Irvin, B., Stamenovic, M., Kegler, M., & Yang, L.-C. Self-Supervised Learning for Speech Enhancement through Synthesis. ICASSP, 2023.

[7] Sato, H., Masumura, R., Ochiai, T., Delcroix, M., Moriya, T., Ashihara, T., Shinayama, K., Mizuno, S., Ihori, M., Tanaka, T., & Hojo, N. Downstream Task Agnostic Speech Enhancement with Self-Supervised Representation Loss. Interspeech, 2023.

[8] Chen, S., Wang, C., Chen, Z., Wu, Y., Liu, S., Chen, Z., Li, J., Kanda, N., Yoshioka, T., Xiao, X., et al. WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing. IEEE Journal of Selected Topics in Signal Processing, 2022.

[9] Sato, H., Ochiai, T., Delcroix, M., Moriya, T., Ashihara, T., & Masumura, R. Generic Speech Enhancement with Self-Supervised Representation Space Loss. Frontiers in Signal Processing, 2025.

[10] Rong, X., Hu, Q., Yesilbursa, M., Wojcicki, K., & Lu, J. PASE: Leveraging the Phonological Prior of WavLM for Low-Hallucination Generative Speech Enhancement. AAAI, 2026.