资源描述
最小能量谐波相位偏转的音频水印算法
摘 要:提出一种基于DCT变换的最小能量谐波相位偏转的音频盲水印新算法,该算法依据DCT系数符号的鲁棒性,通过改变最小能量谐波符号来实现水印信息的嵌入。为控制水印信息嵌入时对音频幅值的修改量,引入品质因子这一性能指标,防止音频数据因水印的嵌入发生破坏性的改变。实验表明,本文方法不仅具备非常好的不可感知性,而且对于压缩类攻击具有较强鲁棒性。
关键词 音频水印;DCT变换;最小能量谐波;符号;品质因子
An audio watermarking algorithm based on minimum energy harmonic phase deflection
Abstract: This paper presents a blind audio watermarking algorithm based on minimum energy harmonic phase deflection in DCT domain. According to the robustness of DCT coefficient symbol, the algorithm embeds watermark information by changing the minimum energy harmonic symbol. In order to control the embedding of the watermark information on the audio amplitude modifier, the performance index of the quality factor is introduced, to prevent the audio data destructive changes occurred watermark embedding. Experimental results show that the method not only has good imperceptibility, but also has strong robustness for compression attack.
Key words: audio watermarking; Discrete Cosine Transform; minimum energy harmonic; symbol; quality factor
1 引言
随着Internet的迅速发展和日益普及,使得数字多媒体信息的广泛传播变得非常容易。如何既充分利用互联网的便利,又能有效的保护知识产权,成为急需解决的问题[1][2]。数字水印技术是把数据嵌入到多媒体文件中,以保护所有者对多媒体所拥有的版权。作为传统密码学方法的有效补充手段,数字水印技术在近年来取得了很大的进展[3]。
音频水印算法一般采用的是相位编码[4]、回声隐藏[5][6]、扩频水印[7]-[9]等。变换域水印因其较好的鲁棒性而被广泛采用,在变换域水印嵌入算法中,文献[7]提出了一种多媒体的扩频水印算法,文中谈到3个嵌入水印的公式,其中最为重要的一个是。式中,为水印嵌入前的系数,为水印嵌入后的系数,为嵌入强度,为水印信息。通过修改的值嵌入水印。此后,许多有关水印算法的研究工作都用到了这一公式[10],但水印提取过程中需要以保存作为先决条件。文献[11]提出的量化数字音频信号频域参数的水印嵌入算法,通过量化离散傅里叶变换系数的幅度或相位嵌入水印。这种算法巧妙地解决了水印提取过程中的需要原始音频文件参与的问题,是真正的盲水印算法。量化算法中,步长的选取极其重要。步长值越大,嵌入水印的鲁棒性就越好;但是步长取得过大,则会使含水印的音频信号失真严重。文献[12]提出了一种可抵抗MP3压缩的音频水印算法,该算法是一种自适应混合域算法,利用离散小波变换的多分辨率特性和离散余弦变换的能量压缩特性,改善了数字水印的隐藏效果,结合听觉掩蔽特性自适应确定量化步长,提高了数字水印的不可感知性。目前,绝大多数研究工作依然采用基于或量化的水印嵌入方法,从本质上来讲,这两种方法都是通过修改频域系数来实现水印信息的嵌入。本文提出的基于DCT变换的最小能量谐波相位偏转的音频水印算法,依据音频数据压缩前后,DCT系数的符号具有很好的鲁棒性这一主要特征,从全新的角度探讨水印的嵌入方法。
2 DCT系数符号与最小谐波系数位置鲁棒性分析
音频数据在压缩转码时的一个重要步骤为频域中系数的量化处理(低通滤波)。频谱系数经量化处理后,系数数值发生改变,但数值较大系数的符号不易改变。解码时,经反量化处理后,频谱系数与原始频谱系数有较大误差,这为以量化为基础的水印嵌入算法带来实际困难。
图1为对某一音频文件压缩转码前后(wav→MP3→wav)的两组音频数据(wav:码率1411kbs,采样率44100Hz;MP3:码率128kbs;采样率44100Hz),在音频的4000个连续时段(8点为一个时段),分别取音频时域信号幅值的绝对值,经DCT变换后,8个频谱系数绝对值的平均相对误差分布图。图2为频谱系数变号的概率分布图。由图1可见,除了第一个直流分量系数转码前后变换较小之外,其余系数转码前后变化很大,最大处高达180%。显然,如用量化[11]-[15]方式在频谱系数上构建水印特征,则这类特征极易被转码后的误差给“淹没”掉。若仅单纯考虑水印的鲁棒性,则在量化时需取较大的步长,导致嵌入水印的能量过大,致使音频数据严重失真。由图2可见,较之频谱系数绝对值,频谱系数符号的鲁棒性更好。
图3为用5点音频时域信号的幅值绝对值均值替代图1中的单点情形转码前后平均相对误差分布图,由于均值法具有较好的抗噪能力,频谱系数绝对值的平均相对误差较之图1有所降低,但值依然较大。图4为5点均值频谱系数变号概率分布图,频谱系数变号的几率小于0.06,符号鲁棒性很好。
与此同时,本文对最小能量谐波位置的鲁棒性进行了统计实验。依然连续在时域上做4000次8点DCT变换,压缩转码前后(wav→MP3→wav),5点均值情形下,在第2-6位置上最小能量谐波位置重合的次数为3236次。10点均值情形下,第2-6位置上最小能量谐波位置重合次数可达3573。显然,如果取更多点求取均值,则最小能量谐波位置的重合度会更高,位置鲁棒性会更好,同时,符号的鲁棒性也进一步提高。
图1 相对误差分布图 图2 变号概率分布图
图3 五点均值相对误差分布图 图4 五点均值变号概率分布图
3 音频水印算法
3.1 基本原理
一维离散余弦变换(DCT)及其逆变换(IDCT)定义为:
(1)
(2)
其中
(3)
DCT频谱系数的大小代表各次谐波振幅的大小或各次谐波能量的大小。其中,绝对值最小的频谱系数表示其所对应的谐波具有最小能量。改变最小值频谱系数的符号等价于将最小能量谐波的初始相位偏转±180°,这种改变对全体谐波总能量的影响较小。
基于上述分析以及DCT频谱系数符号具较好鲁棒性等特点,本文通过修改最小能量谐波的符号来构建水印嵌入特征,基本做法为
嵌入水印1时
, (4)
嵌入水印0时
, (5)
其中,为符号函数,,。
3.2 品质因子
由于人的听觉系统要比视觉系统敏锐,相对于图像和视频信号,在音频信号中嵌入数字水印更加困难。鲁棒性和不可感知性是音频水印的基本要求,一般情况下,嵌入的水印强度越大,水印的不可感知性就越差,但鲁棒性将比较好;反之,嵌入的水印强度越低,水印的鲁棒性就越差,但不可感知性将比较好。因此,本文引进品质因子这一性能指标,并通过重复嵌入水印的方式来协调鲁棒性和不可感知性之间的矛盾。
设表示原始音频时域信号幅值绝对值或若干个原始音频时域信号幅值绝对值的均值,表示水印信息嵌入后的音频时域信号幅值绝对值或若干个音频时域信号幅值绝对值的均值,品质因子定义为
(6)
通过品质因子的控制,限制对音频时域信号幅值的过度修改,实现水印嵌入的不可感知性。
音频幅值是随机波动的,有大有小,如果品质因子取定为一个小参数,则无论音频幅值大小,容许的修改量的百分比是固定的。于是,幅值较大的,其修改量较大,幅值较小的,其修改量也较小。为此,本文依个点的幅值绝对值大小,利用线性插值方法,分别对绝对值均值赋予品质因子
, (7)
其中为最大品质因子,为最小品质因子,,。这样处理后,无论幅值数值大小,水印嵌入后,幅值的修改量基本相当。
3.3 品质因子控制下的水印嵌入方法
式(4)、(5)为水印嵌入的基本做法,显然,简单地对最小能量频谱系数的符号变号,往往会导致越界现象的发生,即式(6)不成立。同时数值较小的DCT系数,经转码后,其符号也易发生改变。为在品质因子控制下合理地对最小能量谐波系数符号变号,可利用DCT变换的线性特性,对全体时域信号幅值在品质因子控制范围内做出相应的修改,以实现最小能量频谱系数符号的变号,具体做法为
分别对组点序列,,…,进行DCT变换,得到组DCT变换系数
,…,,…,
设为时域中点的DCT变换系数,其中()为最小能量谐波的频谱系数,为时域中音频幅值的绝对值或若干个点的绝对值的均值。记为嵌入水印后时域中音频幅值的绝对值或若干个点的绝对值的均值,为所对应的品质因子。
若在此段数据中嵌入水印“1”,则
当时
(1)如果,表明对第个频谱系数为“正叠加”,则令;
(2)如果,表明对第个频谱系数为“负叠加”,则令。
通过上述提高“正叠加”幅值的数值,降低“负叠加”幅值的数值,期望实现系数的符号变号。
当时
(1)如果,表明对第个频谱系数为“正叠加”,则令;
(2)如果,表明对第个频谱系数为“负叠加”,则令;
通过上述降低“负叠加”幅值的数值,提高“正叠加”幅值的数值,期望实现系数数值的增大。
由上述修改幅值的方法,获得一组嵌入水印信息后的时域音频幅值绝对值或均值的修改值,对该组数据进行DCT变换,如果,(),且(嵌入水印1),则水印嵌入成功,否则放弃此段数据(无密钥时)。由于幅值修改量很小,一般情况下,与的DCT变换中最小能量谐波系数位置相同,即。嵌入水印信息“0”的方式与上述做法类似。
由于中低频段最小能量谐波系数的符号与位置鲁棒性较强,在具体实施时,可选取中低频段中的最小频谱系数进行符号变号实现水印信息的嵌入。
值得一提的是,上述水印嵌入过程中,需变号时,对的改变是,而非简单的;不变号时,对的改变是,通过增大的数值,以提高符号的鲁棒性。
3.4均值法音频幅值的修改
基于心理声学的听觉掩蔽效应,强音信号通常能掩蔽附近的弱音信号,因此,对弱音信号稍大的修改,不易引起听觉上的感知。由图2与图4可见,均值法的符号鲁棒性优于单点法。采用均值法时,3.3节中所述的音频幅值的修改均为对多点幅值绝对值均值的修改。为此,需通过修改后的均值,对各点幅值进行修改,以实现水印的嵌入。具体做法为
设为个原始音频时域信号绝对值的均值,为水印嵌入后的修改值,记,为水印嵌入后的音频时域信号,构造权系数
(8)
其中,。
当时,则令;当时,则令。
由式(7)可见,数值越大,权系数越小,相应的修改量也越小。数值越小,权系数越大,相应的修改量也越大。
3.5 密钥的生成
在品质因子控制下的水印重复嵌入过程中,少数时段因其最小能量频谱系数较大,仅通过对幅值绝对值的弱调整,无法实现系数符号的变号,给水印提取的准确率带来一定的影响。为此,为提高嵌入水印的鲁棒性,可将成功嵌入水印的时段用“0”标记,不成功的时段标记为“1”,从而构成水印提取时的一套密钥。
3.6 水印嵌入与提取
(1)水印的嵌入
假设原始音频信号为,二值水印图像为。则数字水印嵌入过程可描述如下:
1) 根据二值水印图像像素个数、水印重数、平均值点数,选择合适的起始点,将音频信号分为个不重叠数据段;
2) 计算个数据段音频幅值绝对值均值;
3) 按个数据段绝对值的均值为一组进行DCT变换,并确定各均值调整的品质因子;
4) 根据当前嵌入水印的属性,按照3.3节所述方式修改个均值幅值,并对个均值幅值进行IDCT变换,检查最小能量谐波符号是否满足水印嵌入要求,如果不满足要求,需要密钥时,密钥标记为1,此段个修改后的均值幅值用原始均值幅值替换,如果满足要求,需要密钥时,密钥标记为0,原始均值幅值用修改后的均值幅值替换;
5)如果水印嵌入成功,对各音频幅值按照3.4节所述方法进行修改。如果水印嵌入失败,则对应时段的音频幅值不做任何处理。
(2)水印的提取
水印提取分为无密钥和有密钥两种提取方式:
1)无密钥
若,则水印为1;若,则水印为0。
2)有密钥
a、密钥为“0”
若,则水印为1;若,则水印为0。
b、密钥为“1”
若,则水印为0;若,则水印为1。
其中为最小能量谐波系数。
4 实验结果
目前大部分网络音乐(如百度音乐)有3种品质,采样率44100Hz,码率分别为320kbps(超高品质),192kbps(高品质),128kbps(标准品质)。本文针对这3种品质进行转码实验,采用64×64的二值水印图像,用5点的绝对值求均值,做8点的DCT变换,在DCT变换的第2-6个位置上确定选取最小谐波系数,30次重复嵌入水印,以某音乐文件(码率1411kbps,采样率44100Hz,时长250.78sec)作为原始音频测试文件。
图5为原始音频幅值与水印嵌入前后音频幅值的改动量(中间浅色部分)。最大品质因子为0.01,最小品质因子为0.001,信噪比SNR=55.97dB,嵌入水印时长111.46sec。通过试听,几乎察觉不到水印嵌入前后的差异。
图5 音频波形与水印波形
图6(a)为嵌入水印后,不经任何处理直接提取的水印图像,图6(b)、6(c)、6(d)为分别按照3种码率(320kbps,192kbps,128kbps)转码后提取的水印图像,图6(e)为未嵌入水印的原始文件的提取结果。此外,本文还对8点、10点和16点绝对值均值的情形下分别进行了测试,随着均值点数的增多,相似度系数不断提高,信噪比也由于参与运算点数的增多略有降低。
(a) (b) (c) (d) (e)
NC=1.00 NC=0.99 NC=0.98 NC=0.89 NC=0.65
图6 水印图像
上述提取的水印图像均在无密钥情形下完成的,其中,计算相似度系数NC时,水印图像中白色像素用1表示,黑色像素用0表示。如果在有密钥的情形下提取水印,则对应码率为320kbps,192kbps,128kbps的相似度NC分别为1.00,1.00和0.99。由此可见,通过与水印密钥的结合,不仅为水印的安全性提供保障,同时也极大地增强了水印的鲁棒性,这是其他有密钥方法所不具备的。这个实验结果也进一步证明了DCT系数符号与最小能量谐波系数位置的鲁棒性。
在对含水印音频文件的攻击试验中,本文还进行了加噪声和低通滤波常规信号处理操作。加噪声:加入高斯白噪声,信噪比为45dB,相似度NC=0.94。低通滤波:采用6级巴特沃斯低通滤波器,截止频率为10kHz,相似度NC=0.95。
为了评估本文算法的性能,将本文算法与量化算法的实验结果做了比较。在相同时段嵌入水印图像。信噪比SNR=50.9855dB。然后按照128kbps的码率转码后提取水印图像,相似度NC=0.89。但嵌入水印后能明显听到噪声。显然,在相同的相似度情形下,相对于量化方法,本文方法信噪比更高,对音频数据造成的损伤更小。
除上述实验外,本文还对十余首采样率为48000Hz、码率768kbps,风格不同的音频测试文件(包含打击乐器声,警报声,语声,电子音乐,歌曲等)进行有密钥的字符串水印的嵌入和提取实验。字符串由0~9十个阿拉伯数字组成,共计40bit。重复100次嵌入水印后,将嵌入水印的文件转码为采样率44100Hz,码率128kbps的压缩文件(MP3)。对解码后的文件提取字符串水印,准确率为100%。嵌入水印的时长为4.00sec;平均信噪比为58.39dB,其中,最大为68.99dB,最小为55.66dB;平均PEAQ值为 -0.16,其中最大为 -0.27,最小为 -0.02。
PEAQ(Perceptual Evaluation of Audio Quality)算法是国际电信联盟ITU提出的,针对嵌入数字水印后的音频音质进行检测的客观评价算法,它是目前对音频质量客观评价算法中与主观评价结果相关度最高的算法,打分采用五分制标准,分值越接近0,表示音质损伤越小;分值越接近-4,表示音质损伤越大。
本文同时采用主观评价的方法,主观评价标准采用的是国际电信联盟ITU-R BS1116建议书对嵌入水印的音频音质进行分析。该标准主要适用于在音质损伤比较小的情况下进行主观评价测试。采用五分制,0分表示音质损伤小,而-4分表示损伤大。主观测试结果显示,嵌入水印后,上述十余首音频文件均为“损伤不可察觉”。
实验结果表明,本文提出的基于最小能量谐波相位偏转的音频水印算法不仅具有较强的鲁棒性,也有非常好的不可感知性,可充分保障音频品质。
5 结语
本文在品质因子控制下对音频幅值进行弱调整,以使对应的DCT系数中代表最小能量谐波的系数符号变号或使其数值增大,用以实现水印信息的嵌入。利用多次重复嵌入水印这一做法,提高了水印检测的鲁棒性。由于品质因子的控制,限制了音频幅值的改动量,保证音频数据不因水印的嵌入而发生破坏性改变。如果引入密钥,则可极大提高水印检测的准确率和安全性,对于MP3音乐作品的版权保护具有很强实用性。
参考文献
[1] George V, Ioannis P. The use of watermarks in the protection of digital multimedia products. Proceedings of the IEEE, 1999,87(7): 1197-1207.
[2] Podilchuk C I, Delp E J. Digital watermarking:algo-
rithms and applications. IEEE S P Mag, 2001,18(4):33-46.
[3] Boney L, Tewfik A H, Hamdy K N. Digital watermarks for audio signals. IEEE International Conference on Multimedia Computing and Systems, Japan, 1996: 473-480.
[4] Imabeppu K, Hamada D, Unoki M. Embedding limitations with audio-watermarking method based on cochlear-delay characteristics. Proceedings of Conference on Intelligent Information Hiding and Multimedia Signal Processing, Kyoto, 2009: 82-85.
[5] Wei F S, Qi D. Audio watermarking of stereo signals based on echo-hiding method. Proceedings of Conference on Information Communications and Signal Processing, Macau, 2009: 1-4.
[6] Xiang Y, Natgunanathan I, Peng D, et al. A dual-channel time-spread echo method for audio watermarking. IEEE Trans Inf Forensics Security, 2012,7(2):383-392.
[7] Cox I, Kilian J, Leighton T, et al. Secure spread spectrum watermarking for multimedia. IEEE Transactions on Image Processing, 1997,6(12): 1673-1687.
[8] Kirovski D, Malvar H S. Spread-spectrum watermarking of audio signals. IEEE Transaction on Signal Processing, 2003,51(4): 1020-1033.
[9] Li L L, Fang X Z. New detection scheme for spread spectrum audio watermarking. Proceedings of the 2010 IEEE International Conference on Wireless Communications, Networking and Information Security, Beijing, 2010: 330-334.
[10] 马翼平, 韩纪庆. 基于能量特性分块的DCT域自适应音频水印算法. 信号处理, 2006,22(4): 519-522.
[11] 王秋生, 孙圣和. 基于量化数字音频信号频域参数的水印嵌入算法. 声学学报, 2002,27(04): 379-385.
[12] 王向阳, 杨红颖, 赵红. 一种可抵抗MP3压缩的音频水印算法. 自动化学报, 2007,33(3): 248-252.
[13] 王宏霞, 范明泉. 基于质心的混合域半脆弱语音水印算法.中国科学F辑,2010,40(2):313-326.
[14] 张金全, 王宏霞, 李学华. 基于邻域平均的鲁棒音频水印算法. 铁道学报, 2012,34(7): 43-48.
[15] 林晓丹. 基于高斯混合模型的DCT域水印检测方法. 自动化学报, 2012,38(9): 1445-1448.
展开阅读全文