作者:AudioCC Lab
来源:听觉认知与计算声学实验室
一、背景:为什么语音增强比 ASR 更需要自监督学习
当前 SE 面临四个典型矛盾:第一,数据矛盾。高质量 noisy-clean 配对样本构造成本高,真实噪声、混响和设备失真又具有强场景依赖性;第二,目标矛盾。SE 不只要“把噪声压下去”,还要尽量保住语义内容、说话人音色、韵律和自然度;第三,任务矛盾。面向 ASR、说话人识别、通话增强、助听器等不同下游时,单一前端往往存在任务失配;第四,生成式矛盾。近年的生成式 SE 感知质量更强,但在低 SNR 下可能出现内容改写或音色漂移。
在这样的背景下,SSL 在语音增强中逐渐演化出三类角色:其一,用未配对数据直接学习 clean prior;其二,用预训练表征替代或增强传统频谱特征;其三,用 foundation model 的高层语言/音系先验约束生成过程。与其说 SSL 只是“少标签条件下的替代方案”,不如说它正在重塑 SE 的训练目标与系统边界。
论文速览:语音增强中的 SSL 技术地图
| 技术方向 | 代表工作 | 核心思路 | 关键价值 |
| 直接自监督 | Wang et al., 2020 | clean/noisy 共享潜空间,无需严格配对标签 | 证明 SE 可自监督训练 |
| 个性化自监督 | Sivaraman et al., 2021 | 把目标说话人的 noisy 录音当作伪源并做净化 | 适合零/少样本个性化 |
| SSL 表征评测 | Huang et al., 2022 | 系统比较 13 个 upstream 在 SE/SS 上的效果 | 确认 SSL 特征对 SE 有效 |
| 表征+频谱融合 | Hung et al., 2022 | SSL embedding 与 spectrogram 跨域融合 | 补足细粒度重建信息 |
| 预训练初始化 | Zhao et al., 2022 | WavLM 初始化因果 DEMUCS,并结合 VQ | 面向实时部署 |
| 合成式增强 | Irvin et al., 2023 | 基于 SSL 前端搜索 + denoising vocoder 直接合成 | 打开生成式 SE 路线 |
| 表示空间损失 | Sato et al., 2023/2025 | 在 SSL 表征域优化 enhanced 与 clean 的距离 | 兼顾下游通用性 |
| Foundation prior | WavLM → PASE | 用通用语音先验约束生成,抑制 hallucination | 向更稳健的生成式 SE 过渡 |
二、路线一:不依赖成对标签,直接从数据中学 clean prior
1. 共享潜空间:Self-supervised Learning for Speech Enhancement(ICML 2020)
这项工作是语音增强自监督路线中的代表性起点。作者构建了 clean autoencoder 与 mixture autoencoder,并让二者共享潜空间:前者用少量干净语音学习“clean speech manifold”,后者则在真实噪声混合语音上训练,并通过共享表征把 noisy 映射到 clean 对应的隐空间。它的重要意义不只在于性能本身,更在于第一次较清晰地说明:SE 并不必然依赖严格对齐的 noisy-clean 标签,也可以通过“干净语音先验 + 混合语音自重建”的方式自举出可用的增强模型。
2. 个性化自监督:Personalized Speech Enhancement through Self-Supervised Data Augmentation and Purification(Interspeech 2021)
个性化 SE 是 SSL 特别适合切入的场景。该工作指出,面向真实用户时,往往拿不到足够多的个人干净语音,但可以获得大量“用户自己的 noisy speech”。作者因此把目标说话人的 noisy 录音当作 pseudo-source,再注入训练噪声构造伪任务,并引入 SNR predictor 对伪源做逐帧加权净化。这个设计把“没有标注、但有个体数据”的现实约束转化为可训练目标,也让 SE 往隐私友好、零/少样本自适应的方向迈出了一步。
3. 从掩码估计走向直接合成:Self-Supervised Learning for Speech Enhancement through Synthesis(ICASSP 2023)
这篇工作进一步把 SSL 与生成式 SE 结合起来。作者不再把增强局限于时频掩码或判别式回归,而是提出 denoising vocoder(DeVo):先在 15 个 SSL 前端中搜索最合适的表征,再让 vocoder 直接从 noisy representation 合成 clean speech。其亮点在于,它既展示了 SSL 表征对语音合成式增强的可迁移性,也给出了可流式运行的因果版本,在 10ms 延迟下仍保持较小性能损失,说明 SSL 不是只能服务“重离线模型”,也有望进入实时场景。
三、路线二:把 SSL 模型当作 SE 的“高级表征”
1. 先弄清楚 SSL 表征到底能不能用于 SE:Investigating Self-Supervised Learning for Speech Enhancement and Separation(ICASSP 2022)
这篇工作完成了一个非常关键、但经常被忽视的步骤——系统评测。作者在 VoiceBank-DEMAND 和 Libri2Mix 上比较了 13 个 SSL upstream,发现部分 SSL 表征在增强与分离任务上能稳定优于 STFT magnitude 和 log-Mel filterbank 等传统输入特征。更重要的是,这项工作把 SE/SS 纳入 SUPERB 的官方下游任务中,等于为社区建立了一个“SSL 能否真正帮助增强”的共同测试基线。
2. 表征不够细,就和频谱融合:Boosting Self-Supervised Embeddings for Speech Enhancement(Interspeech 2022)
Hung 等人敏锐地指出:SSL embedding 很擅长携带高层语音信息,但直接拿来重建波形时,细粒度细节仍可能不足。为此,他们把 SSL 表征与 spectrogram 做跨域融合,并进一步分析 clean-noisy distance(CN distance)与层选择的关系。一个很有启发性的发现是:对 SE 而言,并不是“越抗噪的层越好”,反而某些保留更多细节、噪声鲁棒性没那么强的层更重要。这使得“选哪一层、如何融合”成为后来 SSL-for-SE 工作中的核心问题。
3. 预训练不仅能当特征,还能当初始化:Speech Enhancement Using Self-Supervised Pre-Trained Model and Vector Quantization(APSIPA ASC 2022)
这项工作把思路往工程化推进了一步。作者使用 WavLM 初始化因果 DEMUCS 的编码器和瓶颈层,并在瓶颈后加入 vector quantization,对 noisy representation 做离散化,再送入解码器重建 clean waveform。背后的直觉是:离散 token 化有助于压制噪声成分,同时保住更稳定的语音结构。与单纯“把 SSL 当外部特征拼进去”相比,这条路线更接近把预训练模型嵌入 SE 主干网络本身,也更契合实时通信场景。
4. 从波形损失转向表示空间损失:Downstream Task Agnostic Speech Enhancement with Self-Supervised Representation Loss(Interspeech 2023)与 Generic Speech Enhancement with Self-Supervised Representation Space Loss(2025)
Sato 等人的工作把问题进一步提升到了“增强是为了谁”这一层面。传统 SE 多在波形或频谱域优化,容易偏向感知指标,却未必对 ASR、说话人相关任务或其他未知后端最友好。为缓解这种失配,作者提出在 SSL 表征域最小化 enhanced 与 clean 之间的距离,让增强模型主动保留高层任务相关信息。2023 年版本首先提出 downstream-task-agnostic 的 representation loss;2025 年期刊版则更明确地把目标定义为“generic speech enhancement front-end”,强调同一增强前端可以服务多种未知下游。
四 路线三:从“表征增强”走向“先验约束生成”
1. WavLM:为语音增强提供更强的通用语音先验
虽然 WavLM 本身不是专门为 SE 设计的增强模型,但它对整个领域的影响非常直接。与更早期的 wav2vec 2.0 / HuBERT 相比,WavLM 在预训练阶段显式引入了 masked speech denoising and prediction,并把训练规模扩展到 94k 小时级别的更大、更杂语料。与此同时,SUPERB 也把 Speech Enhancement、Speech Separation、Voice Conversion 等任务纳入统一评测。对 SE 研究者来说,WavLM 的意义在于:它让“强鲁棒语音先验”成为可复用基础设施,为后续的增强、分离、说话人保持与生成式建模都提供了更可靠的表示起点。
2. PASE:把 WavLM 的音系先验拿来约束生成式增强(AAAI 2026)
在生成式 SE 进入扩散、流匹配和语言模型时代后,一个越来越现实的问题是 hallucination:模型虽然听起来“更自然”,却可能改写词内容,或者合成出与原说话人不一致的音色。PASE 的核心贡献,是把这类问题明确拆成 linguistic hallucination 和 acoustic hallucination 两类,并尝试用预训练 WavLM 的 phonological prior 进行约束。具体来说,作者先通过 representation distillation 把 WavLM 适配成 denoising expert,再用 dual-stream vocoder 联合高层音系表示与低层声学表示,从而同时兼顾内容准确性与说话人保真度。这个思路意味着:未来高质量 SE 不只是“生成得更像语音”,还要“生成得更可信”。
观察与判断
- 训练目标正在从“重建干净波形”转向“保留任务相关表示”。
- 模型形态正在从判别式掩码估计扩展到生成式合成,但必须引入更强先验来抑制 hallucination。
- 应用边界正在从通用增强前端扩展到实时通信、个性化增强和未知下游泛化。
- 评价标准也在变化:仅靠 PESQ、STOI 已经不够,内容正确率、说话人一致性和下游任务收益变得同样重要。
五 结 语
整体来看,语音增强中的 SSL 已经不再只是“监督数据不够时的权宜之计”。从 Wang 等人的共享潜空间范式,到 Sivaraman 系列工作在个性化场景下的自监督自举,再到 Huang/Hung/Zhao/Sato 等人把 SSL 表征真正嵌入增强系统,再到 PASE 这样把 foundation prior 用于抑制生成式 hallucination 的最新工作,SE 的研究范式已经发生明显变化。
未来值得重点关注的方向至少有三条:一是面向多任务、多后端的统一增强前端;二是面向低 SNR、强混响与真实设备失真的更稳健生成式模型;三是把语音 foundation model 中的内容、说话人、韵律与环境先验进一步可控地拆解出来,服务于“增强但不改写”的可靠语音生成。对于 SE 而言,自监督学习真正带来的,不只是更少标签,而是更强先验与更宽系统设计空间。
六 参考文献与延伸阅读
[1] Wang, Y.-C., Venkataramani, S., & Smaragdis, P. Self-supervised Learning for Speech Enhancement. ICML, 2020.
[2] Sivaraman, A., Kim, S., & Kim, M. Personalized Speech Enhancement through Self-Supervised Data Augmentation and Purification. Interspeech, 2021.
[3] Huang, Z., Watanabe, S., Yang, S.-w., Garcia, P., & Khudanpur, S. Investigating Self-Supervised Learning for Speech Enhancement and Separation. ICASSP, 2022.
[4] Hung, K.-H., Fu, S.-W., Tseng, H.-H., Chiang, H.-T., Tsao, Y., & Lin, C.-W. Boosting Self-Supervised Embeddings for Speech Enhancement. Interspeech, 2022.
[5] Zhao, X.-Y., Zhu, Q.-S., & Zhang, J. Speech Enhancement Using Self-Supervised Pre-Trained Model and Vector Quantization. APSIPA ASC, 2022.
[6] Irvin, B., Stamenovic, M., Kegler, M., & Yang, L.-C. Self-Supervised Learning for Speech Enhancement through Synthesis. ICASSP, 2023.
[7] Sato, H., Masumura, R., Ochiai, T., Delcroix, M., Moriya, T., Ashihara, T., Shinayama, K., Mizuno, S., Ihori, M., Tanaka, T., & Hojo, N. Downstream Task Agnostic Speech Enhancement with Self-Supervised Representation Loss. Interspeech, 2023.
[8] Chen, S., Wang, C., Chen, Z., Wu, Y., Liu, S., Chen, Z., Li, J., Kanda, N., Yoshioka, T., Xiao, X., et al. WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing. IEEE Journal of Selected Topics in Signal Processing, 2022.
[9] Sato, H., Ochiai, T., Delcroix, M., Moriya, T., Ashihara, T., & Masumura, R. Generic Speech Enhancement with Self-Supervised Representation Space Loss. Frontiers in Signal Processing, 2025.
[10] Rong, X., Hu, Q., Yesilbursa, M., Wojcicki, K., & Lu, J. PASE: Leveraging the Phonological Prior of WavLM for Low-Hallucination Generative Speech Enhancement. AAAI, 2026.
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。