什么是数字音频水印?数字音频水印的分类和应用

数字音频水印是一种将隐藏的信息嵌入到音频文件中的技术，以实现识别、验证或保护音频内容的方法。随着互联网的普及和数字化技术的发展，音频数字水印技术应运而生。其主要目的是在不影响音频质量的前提下，嵌入一些隐蔽的数字标识或信息，以确保音频内容的真实性、完整性和版权保护。这些水印可以在音频文件的频谱、振幅或其他特征中进行嵌入，使得音频内容能够被特定的检测系统或算法识别出来。数字音频水印技术的发展不仅应用于音乐、广播和媒体产业，还在音频安全验证、版权保护以及数字媒体传输等领域展现了广泛的应用前景。

数字音频水印的分类

从听觉效果来看，可分为感知水印和不可感知水印。感知水印指的是将水印嵌入到音频载体后，人耳可以相对容易地区分含有水印信号和原始信号，因此在听觉上明显感知到音频中嵌入了额外信息。这种类型的水印会对音频的感知效果产生一定程度的影响，可能导致轻微的失真或者添加轻微的噪音，从而影响音频的听觉质量。尽管感知水印使得信息的存在相对容易被察觉，但它也会造成某种程度上的音质变化，因此在特定应用场景下受到一定限制。相对而言，不可感知水印是指嵌入到音频载体后，人耳无法明显地区分带有水印信号和原始信号，听觉上无法察觉到水印的存在。这种类型的水印旨在保持音频的高质量和听觉效果不受影响，不会引起听众的感知，从而维持音频内容的使用价值。因为不可感知水印对音频听觉效果的影响极小甚至不可察觉，因此更符合人们的听觉习惯，被广泛应用于版权保护、内容认证以及音频安全等领域。

从含水印信号受到外界破坏或者人为压缩之后，是否能有效提取水印来进行划分，可以划分为鲁棒水印、易碎水印和半易碎水印。鲁棒水印在面对外部破坏时具有较强的稳定，即使音频载体受到一定程度的干扰、压缩或其他形式的处理，仍能有效地提取水印并识别出水印的内容。这种水印常用于版权保护和内容追踪等需要对水印信息进行提取和识别的场景中。其稳定使其适用于在各种操作后依然能被可靠地检测出来的应用需求。与鲁棒水印相反，易碎水印在经历任何形式的处理后都会使水印遭到破坏，无法被正确提取，或者提取的信息出现错误。这种类型的水印被设计用来检测和提示音频载体是否遭到破坏或篡改，即使经过微小的修改也会导致水印无法正确提取，从而通知检测者该数字载体已受到损坏或修改。半易碎水印结合了前两者的特点，对于常规操作具有一定的鲁棒，在常规操作（如压缩处理）下能保持水印的稳定和提取，但当音频信息遭到恶意篡改或非法攻击时，则会表现出易碎。通过破坏的水印信息，检测者可以判断出数据载体已经遭到破坏或篡改。这种水印旨在弥补易碎水印在某些场景下的不足，兼顾了在不同情况下对音频内容的保护和识别的需求。

根据水印算法中是否加入水印定位数据，即水印检测和水印提取过程中是否需要原始音频信号的参与，可分为盲水印和非盲水印。非盲水印的检测和提取过程需要原始音频信号的参与。在非盲水印中，检测水印和提取隐藏信息时，必须有原始音频信号作为参考才能进行。这意味着在检测水印时，需要同时使用原始音频和含水印的音频进行比对，以提取嵌入其中的水印信息。盲水印的检测过程不需要原始音频信号的参与。在盲水印中，无需原始音频信号的配对就可以进行水印的检测和提取，即使在缺少原始音频信号的情况下，也可以独立地提取水印信息。这使得盲水印技术更加灵活，不需要原始信号的存在，因此在某些情况下更为便捷和实用。盲水印技术更符合人们的行为习惯，因此应用也更为广泛。

根据不同的水印作用范围，可以分为时域音频水印算法和频域音频水印算法。时域算法直接改变音频信号的样本值，通过在音频样本中直接嵌入水印信息来实现。这种方法易于实现且计算成本较低，因为它直接修改了音频信号的原始数据。然而，时域算法容易受到有意或无意的音频信号处理攻击，例如常见的信号处理操作（如低通滤波、均衡器调整等）可能破坏水印的嵌入性或提取性。其计算资源利用率较低，对信道干扰的能力也较差，安全性相对较弱。频域水印算法利用了人类视听特性，通过各种变换获得音频信号的频域变换系数，并将水印嵌入到这些变换系数中。这种方法能够降低原始音频的退化程度，增加黑客去除水印的难度。频域水印算法对干扰和恶意攻击有较强的抵抗能力，具有较强的鲁棒性，因为它能在经历一些变换后保持水印的稳定性。然而，这种算法的计算量较大，因为需要进行频域变换和复杂的处理。算法的复杂度较高，相比时域算法更为复杂。

研究现状

音频数字水印技术采用多种算法和方法[1]，在音频信号中隐蔽地嵌入标识，同时保持音质。这些算法利用自适应量化、同步码技术、小波变换（DWT）、离散余弦变换（DCT）等手段平衡了不可感知性、鲁棒性和安全性，有些方法专注于特征提取和优化嵌入位置，应对同步攻击、噪声环境和压缩编码等挑战。

Wang等人提出了一种基于自适应量化的抗同步攻击的音频盲水印算法[2]，采用同步码技术和新的嵌入方式，增强了系统的稳定性和抗同步攻击能力。该算法结合了离散小波变换（DWT）的多分辨率特性和离散余弦变换（DCT）的能量压缩特性，进一步提升了数字音频水印的不可感知性。根据人耳的听觉掩蔽性，采用自适应量化将水印嵌入到宿主信号的低频分量中。

Ma等人提出了一种基于特征提取的新型水印信号生成方法[3]。他们将原始二值图像分割成相同大小的两个块，并将每个块转换为一维序列。利用独立的分量分析提取水印信号的独立特征，并将其作为水印嵌入到宿主信号中。在水印嵌入过程中，他们将水印信号嵌入到通过子采样得到的子音频的选定小波系数中，使用特殊的峰值点提取方案实现了自同步效果。

Bhat等人提出了基于小波变换域奇异值（SVD）和同步码技术的自适应音频水印算法[4]。他们通过对宿主信号的小波域奇异值进行量化指数调制来嵌入水印，使得嵌入水印后的信号在感知上与原始信号相似。相比于其他音频水印方案，该方法具有较高的有效载荷能力和优越的MP3压缩性能。

Lei等人提出了一种基于同步码技术的奇异值分解（SVD）与离散余弦变换（DCT）结合的数字音频水印方案[5]。他们在宿主音频信号经过SVD-DCT处理之后的高频子带中嵌入二值水印，并采用混沌序列作为同步码插入到宿主音频信号中。实验结果表明，该方法对各种信号处理攻击的效果优于其他典型的音频水印方法。

Hu等人提出了一种在离散小波变换域联合人类听觉掩蔽效应和合理抖动调制的音频水印算法[6]。该方法通过调制宿主信号系数向量在第五级近似子带实现水印嵌入，利用量化噪声限值保持在听觉掩蔽阈值下来确保不可感知性，并利用算法的周期性特征实现水印的精确提取。

Akhaee等人提出了针对语音信号的半盲乘性水印算法[7]。该算法设计了噪声环境下的最优最大似然检测器，应用于宿主信号的低频分量中。通过音频质量感知评估算法和语音质量感知评估算法，巧妙地控制水印系统的不可感知性，并提高了系统的鲁棒性。

Singh等人提出了一种针对压缩域的鲁棒音频水印方案[8]。他们利用自适应量化指数调制来修改宿主音频信号的子带系数并嵌入水印，并使用提高掩蔽阈值的方法改进检测算法，以满足系统鲁棒性、安全性和透明感知性的要求。该方案具有较低的计算复杂度。

Pahlavani等人提出了一种基于块插值技术的加性白噪声鲁棒音频水印方法[9]。他们将块插值技术与块拼接相结合，以应对加性白噪声，同时增加了嵌入容量，改善了水印系统的其他重要特性。

Hu等人提出了利用离散余弦变换和离散小波包变换联合实现嵌入容量的可变性且引入不可感知失真的概念[10]。他们采用了基于感知的量化索引调制技术嵌入水印，并通过不同信号处理攻击下的音频感知评估和提取水印时的误码率，证明了该方案的有效性。

Huang等人通过优化修改离散小波变换的低频幅值来实现数字音频盲水印系统[11]。他们提出了结合信噪比和嵌入系数的最优化嵌入公式，以在不降低音频质量的前提下增大嵌入容量，增强鲁棒性。

Terchi等人引入参数量化指数调制的方法，找到了QIM过程的最优值参数[12]。他们提出了一种有效的方法来寻找水印嵌入位置的最佳选择区间，将QIM的最优参数与水印嵌入位置结合，构成了该水印技术的高鲁棒性密钥。

Luo等人提出了一种基于灵活分割和自适应嵌入的双域音频水印算法[13]。他们设计了一种新颖的音频节拍检测方法对宿主音频进行灵活分割，采用离散小波包变换对音频信号进行分解。该算法对同步攻击具有较高的鲁棒性。其次，作者还提出了双域嵌入方法。在每个音频的分段中，利用心理声学模型计算音频信号掩蔽阈值，并将信号分为掩蔽信号域和被掩蔽信号域。利用失真补偿抖动调制量化方法，在每个域中选取掩蔽噪声比最低的频带作为水印的嵌入位置。

实际应用

数字音频水印的应用最早可追溯到1954年，Muzak 公司的埃米利·希姆布鲁克 (Emil Hembrooke) 在音乐作品中引入了一种标记信息，用以保护音乐作品的版权。他申请了一项专利，利用嵌入认证码的技术来表示音乐版权。这项技术使用窄带陷波器，以间断性方式插入认证码到音乐中，其中窄带陷波器被设定为固定的中心频率 1kHz，并结合摩斯密码对数据进行保护。该认证码可显示能量变化，检测设置频率上的能量缺失，并标记缺失位置，以判断衰减过程中的缺失持续时间。为了记录这些持续时间，实验中通常使用点或长划进行编码。这一系统被Muzak公司广泛应用于多媒体文件的版权保护等领域，因其经济价值和实用性。自20世纪80年代以来，人们开始大量发展这种嵌入方法，逐步将其应用于各种生活和工作场景，因其简便性、易用性和低成本而受到广泛关注。

截至目前，国内外许多公司都积极采用或研发数字音频水印技术。例如，汉邦高科自2007年起专注于数字水印技术领域，已经建立了一系列完善的产品，涵盖视频、音频、图片等不同领域的数字水印技术。其Viewmark水印产品已成功应用于国家广电总局、中央及地方电视台、电影技术质量检测所、美国亚马逊等机构。另外，美国Verance公司旗下的Cinavia产品能够在音频中嵌入难以察觉的水印信息，用于辨识和防止未经授权的音频内容播放。该技术已被蓝光标准、HbbTV协会等广泛采纳，成为电影、电视和音乐领域内容保护的商业标杆。同时，平治信息则采用音频数字水印嵌入技术将隐蔽的版权信息嵌入数字音频中。通过水印提取算法，又能完整提取音频宿主文件中的数字水印，实现版权追踪和保护。

参考文献：

[1]更太加, 石海强, 胡洋霞, 等. 关于语音水印发展现状的综述研究[J]. 青海科技, 2022.

[2] Wang X Y, Zhao H. A novel synchronization invariant audio watermarking scheme based on DWT and DCT[J]. IEEE Transactions on Signal Processing, 2006, 54: 4835-4840.

[3] MA X, ZHANG B, DING X. Self-synchronization Blind Audio Watermarking Based on Feature Extraction and Subsampling[C]. International Symposium on Neural Networks. Springer, Berlin, Heidelberg, 2007: 40-46.

[4] VIVEKANANDA B K, SENGUPTA I, DAS A. An adaptive audio watermarking based on the singular value decomposition in the wavelet domain[J]. Digital Signal Processing, 2010, 20(6): 1547-1558.

[5] LEI B Y, SOON I Y, LI Z. Blind and robust audio watermarking scheme based on SVD–DCT[J]. Signal Processing, 2011, 91(8): 1973-1984.

[6] HU H T, HSU L Y. A DWT-based rational dither modulation scheme for effective blind audio watermarking[J]. Circuits Systems & Signal Processing, 2016, 35(2): 553-572.

[7] AKHAEE M A, KALANTARI N K, MARVASTI F. Robust audio and speech watermarking using Gaussian and Laplacian modeling[J]. Signal Processing, 2010, 90(8): 2487-2497.

[8] SINGH J, GARG P, DE A N. Audio watermarking based on quantization index modulation using combined perceptual masking[J]. Multimedia Tools and Applications, 2012, 59(3): 921-939.

[9] PAHLAVANI F, POURMOHAMMAD A. A Block Set Interpolation Technique Based Additive-White-Noise Robust Audio Watermarking Method[C]. International Isc Conference on Information Security & Cryptology. IEEE, 2013: 1-5.

[10] HU H T, HSU L Y, CHOU H H. Perceptual-based DWPT DCT framework for selective blind audio watermarking[J]. Signal Processing, 2014, 105(dec.): 316-327.

[11] HUANG H N, CHEN S T, LIN M S, et al. Optimization based embedding for wavelet-domain audio watermarking[J]. Journal of Signal Processing Systems, 2015, 80(2): 197-208.

[12] TERCHI Y, BOUGUEZEL S. A blind audio watermarking technique based on a parametric quantization index modulation[J]. Multimedia Tools and Applications, 2018, 77(19): 25681-25708.

[13] Luo Y, Peng D, Sang Y, et al. Dual-domain audio watermarking algorithm based on flexible segmentation and adaptive embedding[J]. IEEE Access, 2019: 10533-10545.