1、分类号 UDC密 级学 号 硕士学位论文 音频数字水印技术研究 摘要学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文的全部或部分内容编入有
2、关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日论文题目:音频数字水印技术研究摘要随着信息技术和计算机网络技术的飞速发展,数字多媒体信息(图像、文本、音频和视频等)的存储、复制和传播变得非常容易,但这给我们带来方便的同时也带来一些副作用,一些不法分子在没有经过作品所有者许可的情况下,随意复制、篡改和散布有版权的作品。因此,对多媒体内容的版权保护与内容鉴别已成为亟待解决的问题。随着数字音乐作品的广泛传播,对音频作品的版权保护也显得非常重要。音频数字水印技术就是针对音频作品进行版权保护的,该
3、技术通过在音频文件中嵌入秘密信息来达到版权保护和掩蔽通信的目的。本文论述了数字音频水印技术,提出了两种音频数字水印算法,全文的主要工作如下:(1)较为全面地综述了音频数字水印的概念、框架、要求、人类听觉系统特性特别是掩蔽特性、常见的音频数字水印的攻击及几种评价标准,同时介绍了几种典型的音频水印算法。(2)提出了一种基于能量比较的时域音频数字水印算法。该算法利用Arnold置乱变换对要嵌入的水印图像进行加密处理。首先对音频信号分段,计算每段音频的能量,然后根据比较结果,通过不改变或缩小音频信号能量的方法嵌入水印。该算法具有较好的安全性,对不同的音乐和话音都具有良好的感知透明性。能够抵抗裁剪、滤波
4、、加噪、压缩等攻击,鲁棒性较好。(3)提出了一种基于小波变换的频域音频数字水印算法。该算法利用混沌序列对水印信息加密,先对音频信号分段,每段实施离散小波变换,比较每两段音频精细分量的能量,然后根据比较的结果和一定的规则嵌入水印信息。实验证明,该算法具有较好的感知透明性、安全性,含水印音频能够抵抗基本的信号处理操作,鲁棒性较好。本文提出的算法都是盲水印算法,可以对音频文件实施有效的版权保护,具有很好的实用价值。关键词:数字音频水印;能量比较;离散小波变换;感知透明性;鲁棒性53 AbstractTitle: RESEARCH ON AUDIO DIGITAL WATERMARKING TECHN
5、OLOGYMajor: Computer Application Technology Name: Tingting CHAO Signature: Supervisor: ProfXinfang WANG Signature: AbstractWith the rapid development of information technology and computer network, the storage, duplication and communication of digital multimedia information (images, texts, audios an
6、d videos) have become very easy, this has brought us convenience, but at the same time, it also has brought some side effects, some pirates copying, tampering and broadcasting the digital works without the permission of the authors. Therefore, copyright protection and content identification of multi
7、media have become an urgent problem to be solved. With the widespread dissemination of digital music, copyright protection of audio has become more and more important. Audio digital watermarking technique is to protect audio works copyright, we can embed secreted information into audio files using t
8、he technology, so as to get the purpose of secreted communication and copyright protection. The thesis talked audio digital watermarking technology, designed two different watermarking algorithms. The main research work is as follows:(1)Described the concept,framework, requirements,characteristics o
9、f the Human Auditory System especially masking, main attacks, some benchmarks of audio watermarking techniques, finally introduced several kinds of existent audio watermarking algorithms. (2)Designed a time-domain digital audio watermarking algorithm based on energy comparison. Using the Arnold tran
10、sform to encrypted the secret information. At the first, we divided the audio signal into some segments, calculated each segments energy, and compared the energy of each two segments. Then according to the results of the comparison, embedded the watermark by the way of not changing or reducing the e
11、nergy. The algorithm had good security, took a good perception of transparency for different types of music and voice. It had good robustness, because it could resist the attacks such as compressing, adding noise, filtering and cutting.(3) Designed a frequency domain audio watermarking algorithm by
12、using the transform of DWT. At the first, using chaotic sequencer to encrypt the secret information .Then divided the original audio signal into some segments, carried on the wavelet transformation to the each segments and gained the audio fine, compared the energy of audio fine of each two segments
13、, embedded the watermark according to the results of the comparison and certain rules. The experiment results showed the algorithm had good transparency and security. Watermarked audio signal could resist the basic signal processing operations, the algorithm had good robustness.The two digital audio
14、 watermarking algorithms which are mentioned above are blind watermarking algorithm, can protect the copyright of audio files effectively, and have good practical value.Key words: Digital Audio Watermarking; Energy Comparison; Discrete Wavelet Transform; Transparency;Robustness1绪论目录目录1绪论11.1研究背景11.2
15、音频数字水印的国内外研究现状21.3本文主要工作及内容安排31.3.1本文的主要工作31.3.2本文的内容安排32音频数字水印技术52.1数字音频基本理论52.1.1人类听觉特性52.1.2音频信号的数字化62.1.3常用音频信号的编码格式72.2音频数字水印系统基本构架82.3音频数字水印系统的要求92.4音频数字水印技术的应用102.5常见的音频数字水印攻击112.6典型的音频数字水印算法122.6.1时域音频数字水印算法122.6.2变换域音频数字水印算法132.6.3压缩域音频数字水印算法142.7音频数字水印的评价标准142.7.1感知透明性评价方法152.7.2鲁棒性评价方法162
16、.8 WAVE音频文件格式及解析172.9本章小结203基于能量比较的时域音频数字水印算法213.1引言213.2算法概述213.3算法实现223.3.1水印预处理223.3.2水印的嵌入233.3.3水印的提取243.4实验设计253.4.1水印的设计253.4.2实验内容设计263.5实验结果分析263.5.1感知透明性检测263.5.2安全性检测273.5.3鲁棒性检测283.6本章小结294基于小波变换的音频数字水印算法314.1小波变换基础理论314.1.1连续小波变换314.1.2离散小波变换324.2算法概述324.3算法实现334.3.1水印预处理334.3.2水印的嵌入344
17、.3.3水印的提取354.4实验结果及分析364.4.1感知透明性测试364.4.2安全性测试374.4.3鲁棒性测试384.5两种算法的比较394.5.1感知透明性比较404.5.2安全性比较404.5.3鲁棒性比较414.6本章小结415总结与展望435.1全文工作总结435.2下一步工作展望44致谢45参考文献47在校期间发表的论文51绪论1绪论1.1研究背景近年来,计算机网络通信技术特别是互联网的蓬勃发展,使得数据的交换和传输成了相对简单快捷的过程。人们借助于电子设备将不同样式的多媒体作品以网络形式发表,一方面这些数字作品可以以低成本甚至无偿地被使用,这样就给用户带来了很大的方便;另一
18、方面这些也会被不法分子所利用,他们可以很容易地复制这些作品,严重侵害了创作者和所有者的产权。因此,数字作品的便利性和不安全性是同时存在的,采取必要的手段对数字作品实行保护已是迫在眉睫的工作1。传统的作品版权保护手段现在已经不能满足需要,我们应该考虑数字作品本身的特点,为它提供新的保护手段。人们通常认为通信安全的实现可以通过加密来完成2,即首先对多媒体数据进行加密处理,将其变成密文以后发布,在传播的过程中,非法的个人和团体不会得到机密信息,从而达到版权保护和信息安全的目的。以香农信息论及密码学理论为依据的密码技术,存在着一些不足,并不能彻底解决问题。首先,经过加密处理后的多媒体文件因其不可理解性
19、而妨碍了多媒体信息的传播;其次,多媒体信息经过加密后比较容易引起攻击者的好奇和注意,并有被破解的可能性,而且加密文件一旦被破解,其内容就完全透明了,不会再起到任何保护作用。由于电脑技术的高速发展和破解技术的日渐成熟,传统系统的安全慢慢被人们所质疑。因此,人们不得不去寻找新的技术来补充加密技术,使多媒体数据的版权能得到更有效的保护。数字水印技术的研究就是基于这样的实际需要而发展起来的。 自从数字水印(Digital Watermarking)技术在1993年被Caronni提出来以后,工业界与学术界的学者们对它产生了浓厚的兴趣,此后慢慢成为全球非常热门的研究课题。数字水印技术是一门兴起时间不是很
20、长的多门学科相交叉的技术,但发展非常迅速,主要涉及到了计算机科学、多媒体处理、数据压缩、人类心理学和密码学等领域,具有非常重要的理论意义和现实意义。数字水印技术是一种信息隐藏技术,其基本思想是在不影响信息可用性的前提条件下,利用人的听觉特性和视觉特性,对数字产品嵌入秘密信息,用来保护数字产品的版权和证明数字产品的可靠性,以及为用户提供产品的附加信息等等。随着因特网的普及和数字化音乐制品的大量制作和发行,人们可以很方便的从互联网上下载音乐产品,但这也给非法侵权者提供了机会,致使很多侵害产权的音乐被以不同的方式发布,这样不但给音乐产业带来很大的经济损失,而且阻碍了它的发展。于是,对音频数据实施版权
21、保护变得越来越重要,音频数字水印技术由此而生。音频数字水印技术是在原始音频数据中嵌入秘密信息水印,但不影响原始音频的听觉质量,在音频中嵌入的秘密信息可以有很多种形式如文字、图像、作品序列号等等3。水印信息和原始音频数据紧密结合在一块,通常情况下音频中嵌入的水印,人们在听觉上根本察觉不到,并且还要能够有效地抵抗不法侵权行为的攻击。1.2音频数字水印的国内外研究现状数字水印技术是信息隐藏技术的一个重要分支,最早提出的数字水印技术都是对图像实施保护的。在1993年,Tirkel等人4发表的一篇文章中首次论述了该技术。“数字水印”这一概念最早由Tirkel等人在1994年国际图像处理会议上正式提出。此
22、后,数字水印技术在国际上引起了人们的广泛关注。从1996年的第一届国际信息隐藏技术研讨会(International Information Hiding Workshop,IHW)顺利召开以后,数字水印技术就被认定为一个重要的内容在往后连续四届的信息隐藏会议上进行了探讨。从1999年开始,光学工程师协会SPIE和国际图像科学与技术协会IS&T每年都要举办“多媒体内容安全和水印的专题研讨会”(Security and Watermarking of Multimedia Contents)。2009年8月国际数字水印专题讨论会(International Workshop on Digital
23、 Watermarking,IWDW)第八次会议在英国的吉尔福德顺利闭幕。自上世纪90年代起,世界上许多著名大学、科研机构和比较有名的企业对数字水印技术都投入了大量的人力和财力进行研究和开发,并且取得了一定的成绩。NEC美国研究所、麻省理工学院和IBM研究中心等都已对数字水印技术进行了深入的研究,一些数字水印的软件被生产出来。数字水印技术在国外取得一定发展的同时,在我国也引起了学者们的关注和研究。我国最早的水印算法是Bender等人在1996年5提出来的,他们主要提出了四种水印算法,有最低有效位算法、回声隐藏算法、相位编码算法和扩频编码算法。通过实验证明,这些算法都有一定的使用价值。后来,Bo
24、ney等学者6把Cox方案运用到音频信号中,经过仿真实验发现,这也是一个比较有效的方法。再后来,又有一些研究人员进一步改进和完善了上面的几种算法,而且取得了较好的实验结果。 音频水印技术在近年来虽然有一定的发展,但在实际的应用中,能够完全对版权实施保护的方案却寥寥无几。音频数字水印技术的发展之所以不能达到图像数字水印的水平,一个原因是人类听觉系统模型(Human Auditory System,HAS)比人类视觉系统模型(Human Visual System,HVS)要敏感得多,如果在音频信号中嵌入微弱的水印信息,很有可能会被人耳感受到;另一个原因是在音频信号中嵌入水印的信息量远远小于在图像
25、中嵌入的信息量7。所以,目前音频数字水印技术面临的挑战是如何在保证水印鲁棒性和感知透明性的同时,提高水印的检测效率和嵌入强度。1.3本文主要工作及内容安排1.3.1本文的主要工作(1)介绍了音频数字水印技术的相关概念、基本原理、音频水印算法评价标准、攻击方法以及WAV格式音频特性等,同时,分析了几种典型的音频数字水印算法。(2)结合人类听觉系统特性,提出一种基于能量比较的时域音频数字水印算法。算法以二值图像作为水印嵌入到音频信号中,为了减小水印图像像素间的相关性,增强水印图像的安全性,利用Arnold置乱变换对要嵌入的水印图像进行置乱处理。首先介绍了Arnold置乱算法,接着详细分析该算法的嵌
26、入过程和提取过程。通过仿真实验对算法的感知透明性、安全性和鲁棒性进行验证。(3)提出一种基于小波变换的频域音频数字水印算法。该算法利用混沌序列对水印信息进行加密,通过小波变换把音频信号映射到频域,将水印信息嵌入到音频信号的精细分量上。首先介绍了混沌加密的有关知识,然后详细分析该算法的嵌入过程和提取过程。通过实验对算法的感知透明性、安全性和鲁棒性进行检验。最后,比较两种算法的性能。1.3.2本文的内容安排第一章首先简单介绍了音频数字水印技术的研究背景,接着讲述了该领域国内外的研究现状以及面临的挑战,最后论述了本论文主要工作及结构安排。第二章首先介绍了数字音频的基本理论、音频水印系统的基本框架、要
27、求及应用,并对音频数字水印的评价标准做了简单介绍,随后列举了几种典型的音频数字水印算法,最后分析了WAVE音频的编码格式。第三章提出一种基于能量比较的时域音频数字水印算法。首先简单介绍了Arnold置乱变换,该算法采用Arnold变换对水印进行预处理,然后详细分析了该音频水印算法,最后通过仿真实验对算法的感知透明性、安全性和鲁棒性进行了验证。第四章提出一种基于小波变换的音频数字水印算法。首先对本章算法所采用的小波变换进行了简单的介绍,随后详细介绍了该音频水印算法,算法中采用混沌序列对水印信息进行加密处理,最后对算法的性能进行了验证,并与第三章的算法进行了比较。第五章总结全文工作,并对未来的数字
28、水印研究方向进行了展望。1绪论音频数字水印技术2音频数字水印技术2.1数字音频基本理论2.1.1人类听觉特性在音频信号中嵌入秘密信息(即水印)一般都要结合人类听觉系统(Human Auditory System,HAS)的某些特性89,即人的听觉生理心理特性,来满足嵌入水印的感知透明性(听觉相似性)要求。人耳的听觉过程是一个很复杂的生理过程,并不是所有的声音都能被人耳听到,这主要是由人耳对频率的感知范围和人耳对声音强度的感知范围决定的。一般情况下,人耳能够感受到频率在20Hz到20kHz之间的声音,但人耳对不同频率的声音的灵敏度是不同的,绝大部分人的听觉系统对2kHz5kHz之间的声音的敏感度
29、比较高。人的听觉系统一般能感受到声压级在0dB以上的声音的存在,但对于声压级在120dB以上的声音,人耳会明显的感觉到不舒服,当声音的声压级大于130dB时,人耳就会有疼痛感。 掩蔽效应(Masking Effect)是心理声学的一个重要性质,它表明人耳的听觉系统(HAS)的灵敏度对频率和时间分辨力的局限性。一个较弱的声音的听觉感受被另一个较强的声音所影响的现象称为人耳的“掩蔽效应”。较弱的声音称为被掩蔽音(Masked Tone),较强的声音称为掩蔽音(Masking Tone)。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈值。实验表明,在3000
30、Hz5000Hz范围内绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在800Hz1500Hz范围内绝对闻阈值受频率变化的影响最不明显,也就是说在这个范围内语言可储度最高。 掩蔽效应分为时域掩蔽(Temporal Masking)和频域掩蔽(Simultaneous Masking)10。频域掩蔽11,又被称为同时掩蔽,指的是掩蔽效应发生在掩蔽音和被掩蔽音共同发生作用的情况下,是一种较强的掩蔽效应。这时,在掩蔽效应发生期间掩蔽音一直都在起作用。通常情况下,频域中的弱音会被其附近的强音掩蔽,弱音和强音之间的距离越小,就越容易被掩蔽。在距离强音较远处,绝对闻阈值比该
31、强音所引起的掩蔽阈值要高,这时,噪声的掩蔽阈值是由绝对闻阈值决定的。时域掩蔽12,又被称为异时掩蔽,指的是掩蔽音和被掩蔽音不同时出现时发生的掩蔽效应。异时掩蔽又被划分为超前掩蔽(Pre-masking)和滞后掩蔽(Post-masking),如图2-1所示,如果掩蔽音出现在被掩蔽音的前面,则称为滞后掩蔽。如果掩蔽音出现在被掩蔽音的后面,就称为超前掩蔽。滞后掩蔽发生的原因是人的神经行为具有一定的持久性,而发生超前掩蔽的原因则是掩蔽音和被掩蔽音之间的听觉处理互相干涉。异时掩蔽是一种比较弱的掩蔽效应,并且随着时间的推移而迅速衰减。一般来讲,超前掩蔽发生作用的时间很短,只有320ms,而滞后掩蔽则可以
32、持续50100ms。人耳的这种超前掩蔽、滞后掩蔽的特性为音频中嵌入水印提供了很大的方便。同时掩蔽滞后掩蔽超前掩蔽掩蔽音出现前的时间/ms掩蔽音消失后的时间/ms掩蔽音被掩蔽音可闻阈值的上升量/dB图2-1时域掩蔽效应Figure 2-1 Time-domain masking effect人类听觉系统特性特别是掩蔽特性在数字音频水印技术中发挥着举足轻重的作用。目前出现的大多数音频数字水印算法都直接或间接地利用人耳掩蔽特性来保证嵌入隐秘数据的感知透明性 13,在音频中嵌入的隐秘信息必须适应并且依靠于原始音频信号,而且原始音频信号的时域和频域掩蔽特性决定水印的时域和频域的分布。根据原始音频信号的不
33、同,嵌入音频中的水印信号的强度也不相同,这样就可以保证嵌入的水印信息在具有很好的感知透明性的同时,也具有最大能量,水印能量的最大化增强了水印抵抗攻击的能力。2.1.2音频信号的数字化自然界中的音频信号是幅度随时间而变化的一维连续信号,不仅在幅度上是连续的,而且在时间上也是连续的,一般称为模拟信号。音频信号在幅值上连续指的是音频信号有无限多个幅度的数值,而音频信号在时间上的连续指的是在某一个指定的时间范围内信号的样本值有无限多个。随着计算机的普及和科学技术的不断发展,采用现代化的信息技术手段处理音频信号已经成为一种有效的手段,但是计算机只能处理在时间和幅度上都是有限的数字信号,它不能处理模拟信号
34、,所以要使用计算机来处理音频信号就要先对音频信号进行数字化。对模拟信号进行采样和量化就可以把音频信号变成时间上和幅值上都离散的数字信号。音频信号的数字化有两个重要的参数:量化精度和采样频率。连续时间的离散化是通过采样来实现的。采样指的是在一些特定的时间点测量模拟信号,每次采样都会相隔相等的一小段时间,把这种方式的采样称为均匀采样,两个采样点之间的间隔称为采样周期,采样频率是采样周期的倒数。目前,音频信号常用的采样频率有8kHz,10kHz,12kHz,16kHz,22.05kHz和44.1kHz。音频信号的采样频率会影响水印信息的嵌入量。在大部分已有的数字水印技术中,可用的数据空间和采样频率的
35、增长至少满足线性关系。信号连续幅度的离散化是通过量化来实现的。所谓量化就是把采集到的数值送到量化器(A/D转换器)编码成数字,每个数字代表一次采样所获得的音频信号的瞬间值。量化时,把整个幅度划分为几个量化级,将落入同一级的样本值归为一类,并给定一个量化值。目前,常用量化数据位来表示量化级。通常,音频信号的样本量化位数有8位和16位。最近,有公司还推出了24位的产品。样本量化位数的多少影响到音频信号的质量,量化位数越少,音频的质量就越差,需要的存储空间就越小;量化位数越多,音频的质量就越高,但需要的存储空间就越大。2.1.3常用音频信号的编码格式多媒体技术问世以来,在互联网和各种机器上的音频文件
36、格式有很多种,不同的格式有各自不同的用途。下面简单介绍几种目前比较流行的编码格式:(1)PCM编码:脉冲编码调制(Pulse Code Modulation,PCM)是对信号进行采样和量化时,将所得到的量化值序列进行编码,变换为数字信号的调制过程。PCM编码的音质比较好,但是占用的存储空间却非常大。我们常见的Audio CD采用的就是PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。(2)WAV:WAV是Microsoft 公司开发的一种声音格式,也叫波形声音文件,是最早的一种数字音频格式,被Windows平台及其应用程序广泛支持。只要有足够高的采样频率和量化精度,采用WAV格式记录的声音
37、和原始声音几乎没什么差别,质量比较高。(3)MP3:MP3(Moving Picture Experts Group Audio Layer III)是目前最为普及的音频压缩格式,是Fraunhofer-IIS研究所的研究成果。MP3所属的MPEG-1标准的部分对应于ISO/IEC 111723标准16。MP3是利用MPEG Audio Layer3的技术,将音乐以1:10甚至1:12的高压缩率压缩成容量较小的音乐文件,也就是说,能够在音质丢失很小的情况下把音乐文件压缩到更小,而且还能非常好的保持原来的音质。MP3格式音频体积小,音质高,一分钟CD音质的音乐经过MP3压缩编码后只需要大约1MB
38、的存储空间,而没有压缩时需要10MB左右的存储空间。但MP3文件是熵编码,没有办法直接得到音频信号的原始幅值,所以也就没办法直接对其进行信号处理。(4)MIDI:(Musical Instrument Digital Interface,MIDI)是乐器数字接口,是上世纪80 年代初提出的,用来解决电声乐器之间的通信问题。它是电子乐器和电脑之间及电子乐器之间的一种统一交流协议。MIDI 传输的不是声音信号,而是音符、控制参数等指令,它指示MIDI设备要做什么,怎么做,如演奏哪个音符,多大音量等。MIDI文件数据量小,便于传输和保存,而且能够很容易地转换成音频,用途很广泛。(5)RealMedi
39、a:RealMedia是Real Networks公司为了解决网络传输带宽资源有限的问题而提出的一种支持网络流媒体的多媒体格式。RealMedia的音频格式有RA和RMA,它可以根据不同的网络传输速率制定出不同的压缩比率,从而实现在低速率的网络上进行音频数据实时传送和播放,非常适合早期的互联网应用环境。(6)WMA:WMA(Windows Media Audio)是微软公司推出的与MP3格式齐名的一种新的音频格式。WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质。 (7)OggVorbis:OggVorbis是一种新的音频
40、压缩格式,类似于MP3等现有的音频格式,其扩展名是.OGG。它也是通过有损压缩算法进行音频压缩的,在压缩技术上,OggVorbis使用了可变数码率和平均数码率方式进行编码,这样可以获得较好的音质,而且它是多声道、完全免费、开放和没有专利限制的。2.2音频数字水印系统基本构架音频数字水印技术就是在音频中添加某些数字信息来保护数字媒体的版权,证明数字产品的真实可靠性。水印信息嵌入在音频载体中,不能影响原始音频的完整性和可用性。从数字通信的角度来讲,可以把音频数字水印技术理解为用扩频等通信技术把一个窄带信号(水印)放在在一个宽带信道(载体)上传输;从信号处理的角度来讲17,可以把音频数字水印技术看作
41、是把一个作为水印信息的弱信号叠加到原始音频载体的强背景上。一个完整的数字音频水印系统包括水印的生成、水印的嵌入和水印的提取或检测三个基本环节18,图2-2为水印嵌入过程的基本框架。原始水印()水印预处理算法()原始音频数据()嵌入水印后的音频()水印嵌入算法私钥/公钥()图2-2水印嵌入的基本框架Figure 2-2 Basic framework of the watermark embedding把原始音频数据、要嵌入的水印信息和一个可选的私钥/公钥作为这个系统的输入,嵌入水印后,该系统输出的是含水印的音频信号。其中水印信息可以是图像(二值图像、灰度图像或彩色图像)、随机序列或伪随机序列、
42、文字等。在嵌入水印前,通常都会采用水印预处理算法对水印信息进行处理,以提高水印的安全性。由图2-2可以定义水印嵌入过程的通用公式: (2.1) 图2-3为水印检测/提取的基本框架。原始水印()/原始音频()含水印音频数据()私钥/公钥()估计水印()/相似度检测()水印检测算法图2-3水印检测的基本框架Figure 2-3 Basic framework of the watermark detection由图2-3定义水印检测过程的公式: 需要原始音频数据时: (2.2) 需要原始水印时: (2.3) 不需要原始音频数据时: (2.4)其中,代表要估计的水印,代表遭受到攻击后的含水印的音频数
43、据,是所采用的水印检测算法。一般采用相似度检验的方法来证明检测信号是水印信号,但它只能检测水印信号是伪随机信号,或者是随机信号。水印相似度检验的公式为: (2.5) 其中,代表水印信号和检测信号的相似度,代表估计水印,代表原始水印。2.3音频数字水印系统的要求要成功地在数字音频中隐藏水印信息,水印处理系统必须满足一些特定的要求。音频数字水印系统的要求20主要包括对鲁棒性、感知透明性、安全性以及对载荷(容量)和计算复杂性的要求。 (l)感知透明性音频数字水印系统要求在音频中嵌入水印信息后,含水印音频必须在听觉感知上达到一定的要求,也就是说在音频中嵌入水印信息而引起的音频载体的变化对人的听觉系统来
44、说应该是觉察不出来的,理想情况是嵌入水印的音频和原始音频载体在听觉上几乎没什么差异,并且对两者进行相同的信号处理操作后也不会有任何感知上的差异。(2)鲁棒性数字水印的鲁棒性是指数字作品在受到各种信号处理操作或攻击后,水印系统仍然能够检测到水印的能力。目前,信号处理操作主要有:DA/AD转换、添加噪声、低通滤波和压缩等。这些操作都不是恶意的,恶意的攻击主要有未经授权的删除、未经授权的嵌入和未经授权的检测。数字水印系统要求水印必须有一定的鲁棒性,即含水印信号在受到各种有意或无意攻击后仍能从水印载体中提取出水印,以达到版权保护的目的。(3)安全性安全性主要指水印抵抗恶意攻击的能力。对于有目的的攻击,
45、如在已获取水印算法或相关知识的情况下,要具有抵抗力,使非授权用户无法检测和破坏水印。(4)数据容量数据容量也称为嵌入率、加载率,是指在一个数字作品中最多可以嵌入的水印比特数。不同的应用环境对数据容量的要求不同,在版权保护应用中,为了提高水印的抗裁剪能力,一般把水印信息重复地嵌入到音频载体中,这种应用对容量的要求不是很高。水印技术运用到隐密通信中时,对信息容量的要求就相当高了。(5)计算复杂性根据应用的环境不同,数字水印系统对计算复杂性的要求也不相同。通常情况下,要求检测器的复杂性要低于嵌入器的复杂性。到目前为止,没有哪一种算法能够完全满足上述要求,现有的音频数字水印算法都是在这些要求之间寻求一
46、种平衡,实际应用时可以根据应用环境选择较为理想的方法。2.4音频数字水印技术的应用音频数字水印技术的应用非常广泛,总的来说主要有如下几个方面 1314:(1)版权保护数字音频作品的所有者为了表明其对作品内容的所有权,采用音频数字水印技术将具有特定意义的水印嵌入到原始音频数据中,接着公开自己的音频作品。在不法分子声称自己对所公开的嵌入水印的音频作品拥有所有权时,该作品的真正所有者利用检测或提取算法,检测或提取出音频作品中嵌入的水印信息,这时就可以很有力地证明该音频作品中含有水印,同时也用来证明所有者对作品的所有权。需要注意的是,该应用要求水印具有较好的感知透明性、安全性和鲁棒性。(2)信息标识在该应用中,把数字作品的一些信息如标题、注释等内容以水印的形式嵌入到数字作品中。水印用来提供更多有关