文章来源:Arxiv 2025
论文题目:SpecTokenizer: A lightweight streaming codec in the compressed spectrum domain
论文作者: Zixiang Wan, Guochang Zhang, Yifeng He, Jianqiang Wei
论文链接:https://arxiv.org/abs/2510.21209
内容整理:刘昱涵
引言
近年来,神经音频编解码器(Neural Audio Codecs, NACs) 作为音频压缩与语音语言模型音频表示技术,受到了越来越多的关注。然而,主流 NAC 通常需要 G 级别的计算量和 M 级别的参数规模,而轻量级与流式 NAC 的性能仍然缺乏系统性研究。本文提出了一种名为 SpecTokenizer 的轻量级流式编解码器,该方法在 压缩谱域(compressed spectral domain 中进行建模。SpecTokenizer 仅由交替堆叠的 CNN 和 RNN 层构成,通过在压缩谱域中的多尺度建模,实现了更高的效率和更强的表示能力。
在 4 kbps 码率下,所提出的 SpecTokenizer 在性能上达到了与当前最先进的轻量级编解码器相当甚至更优的水平,同时仅需 20% 的计算量和 10% 的参数规模。此外,在相似计算与存储资源约束下,SpecTokenizer 的性能也显著优于对比编解码器。
关键词:神经音频编解码器,轻量级,流式,单一代码本,压缩谱域。
方案概述
SpecTokenizer 是一项针对低延迟、低算力场景设计的轻量级流式神经音频编解码器,其核心思想是在压缩频谱域进行建模,而不是传统的时域或高维隐空间建模。这种设计从信号处理与深度建模两个角度同时降低了计算复杂度,并为与大模型集成提供了高效离散 token 表示。
论文的研究动机主要来自当前神经音频编解码器在计算成本和流式推理方面的瓶颈。现有主流模型如 EnCodec、DAC、SpeechTokenizer 等通常在波形域或高维 latent 空间建模,其模型规模大、计算复杂度高,且难以满足实时语音通信、边缘设备和大模型 tokenizer 级集成需求。因此,SpecTokenizer 的目标是构建一个参数量达到 K 级、计算量达到 M 级、且仍保持可懂度和自然度的流式 codec。
模型结构
压缩频谱
SpecTokenizer 的整体架构包括频谱分析前端、频谱域编码器、单码本 RVQ 量化器、频谱域生成器以及多尺度判别器。系统首先将输入语音转换为压缩频谱表示,该频谱并非传统 STFT 或 Mel 频谱,而是经过专门设计的压缩频谱变换,使得频谱在时间与频率维度上均具有更紧凑的统计结构。具体而言,在保持相位不变的前提下,对频谱幅度进⾏幂函数压缩,这里是进行了幅度开根号的处理。 此步骤的关键贡献在于将复杂的时域波形结构转化为低维且更平滑的频谱表示,从而显著降低后续神经网络建模难度。

神经网络结构
编码器采用 CNN + RNN2D 的多尺度结构,其中 CNN 用于局部频谱模式建模,而 RNN2D 用于捕获时间与频率双维度的长程依赖关系。与传统一维时间序列 RNN 不同,RNN2D 允许模型同时建模谐波结构、共振峰轨迹以及时间演化动态。论文指出,周期结构是语音信号最重要的统计特征之一,因此模型中引入了 Snake2D 非线性激活以增强周期性建模能力。消融实验表明,移除 Snake2D 会导致性能显著下降,验证了其对语音周期结构建模的关键作用。
单一大码本
在量化阶段,SpecTokenizer 采用单一大码本的 Residual Vector Quantization (RVQ) 结构。与多码本结构相比,单码本设计显著降低了系统复杂性,并便于与大模型 token 序列直接对接。然而单码本容易出现码本塌缩和利用率不足的问题,因此论文使用了过期机制 + 数据池机制来合理替换不常见的码本条目,提升了码本利用率。实验结果显示,该策略将码本利用率从 62% 提升到 94%,证明了单码本在适当训练策略下仍能保持高效表达能力。
判别器
在神经音频编解码器的对抗训练框架中,通常结合时域判别器与频域判别器以全面约束生成音频的感知质量与频谱结构一致性。
多周期判别器(Multi-Period Discriminator, MPD) 是一种典型的时域判别器,其通过对音频信号进行周期性重排并使用卷积网络进行判别,从而对幅度结构和周期性模式高度敏感。然而,由于其直接作用于时域波形,MPD 对相位失真和精细频谱结构的敏感度相对有限,主要约束波形形态与周期一致性。
多带多尺度 STFT 判别器(Multi-Band Multi-Scale STFT Discriminator, MBMS-STFT Discriminator) 属于频域判别器范畴。其并非通过显式滤波器组进行子带分解,而是通过对不同下采样率的信号分别进行 STFT 计算实现多带建模。这种设计能够在不同时间–频率分辨率下捕获音频的局部与全局谱特征,从而增强判别器对频谱细节和跨尺度一致性的建模能力。
结果评估
论文的实验评估覆盖 PESQ、STOI、SDR、MelLoss、UTMOS、XLSR-MOS 等主流指标,并在 16 kHz 语音数据上与 EnCodec、DAC、FreqCodec、SpeechTokenizer、WavTokenizer 等模型进行对比。

结果表明,SpecTokenizer 在 6 kbps 与 4 kbps 码率下均取得最佳性能,在极低码率 0.5 kbps 下仍保持较高可懂度和自然度,明显优于波形域模型。

论文进一步展示了模型微型化实验结果,在 4 kbps 下,仅使用 20% 的计算量和 10% 的参数量即可达到甚至超过 FreqCodec 的性能,并且仅为 DAC 的 0.8% FLOPs 与 0.6% 参数量。这一结果从工程角度极具意义,说明频谱域建模在资源受限环境下具有明显优势,为嵌入式设备和大规模语音模型部署提供了新的技术路径。
从方法论角度来看,SpecTokenizer 的核心创新不仅在于轻量化结构,更在于 频谱域 tokenization 思路 。传统语音 tokenizer 多基于时域 waveform latent,而 SpecTokenizer 将 token 建模转移到压缩频谱空间,从而使 token 更具物理意义和统计稳定性。这一设计与视觉领域 latent tokenization 和语音大模型 discrete tokenization 趋势高度一致,说明 SpecTokenizer 在语音基础模型生态中具有潜在重要价值。
论文还讨论了模型的泛化能力。SpecTokenizer 仅在 LibriTTS 英语数据上训练,却在其他语音内容上表现出较强泛化性,这暗示频谱域表示具有语言无关的统计结构优势。相比之下,FunCodec 的性能不如 EnCodec,可能与训练数据规模差异有关,但也反映出频谱域模型在小数据场景下的优势。

消融实验显示,移除 DRC/DRE、FLNorm 或多尺度建模都会导致性能下降,其中 Snake2D 的影响最大,进一步强调周期结构建模的重要性。此外,论文指出单码本设计虽然简化系统,但需要精细的训练策略,否则容易造成码本退化。
结论
本文提出了 SpecTokenizer,这是一种实现了 M 级计算量与 K 级参数规模 的流式神经音频编解码器,也是首个在如此低资源约束下仍保持高性能的神经编解码框架。SpecTokenizer 在压缩频谱域进行高效建模,通过交替堆叠的 CNN 与 RNN 结构实现多尺度表示,从而在保证流式推理低延迟特性的同时,显著提升了表示能力与重建质量。其轻量化结构设计使模型能够高效部署于资源受限的边缘设备,同时单码本设计也使其更易与语音大模型和多模态模型进行集成。
实验结果表明,在低码率条件下,SpecTokenizer 仍然能够保持较高的音质与可懂度表现。与现有轻量级神经编解码器(如 FreqCodec 和 DAC)相比,SpecTokenizer 在大幅降低计算和存储开销的同时,实现了更优的音频重建性能,为高效、低延迟的流式音频建模提供了一种新的研究方向与技术路径。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。