1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,天津市智能信号与图像处理重点实验室,*,音频压缩算法,天津市智能信号与图像处理重点实验室,小组成员:刘萍、潘登、徐俊、赵婷,指导老师:张良 教授,提纲,天津市智能信号与图像处理重点实验室,概述,音频格式,压缩编码算法,总结,我们所说的音频是指频率在,20Hz,20kHz,的声音信号。,天津市智能信号与图像处理重点实验室,概述,天津市智能信号与图像处理重点实验室,音频格式,音频文件通常分为两类,:,声音文件,:,指的是通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,通常文件较大,;,MIDI
2、文件,:,它是一种音乐演奏指令序列,相当于乐谱,可以利用声音输出设备或与计算机相连的电子乐器进行演奏,由于不包含声音数据,其文件尺寸较小。,天津市智能信号与图像处理重点实验室,音频格式,天津市智能信号与图像处理重点实验室,WAV,文件使用三个参数来表示声音,:,采样位数,采样频率和声道数。在计算机中采样位数一般有,8,位和,16,位两种,而采样频率一般有,11025Hz(11KHz),,,22050Hz(22KHz),,,44100Hz(44KHz),三种。,WAV,格式是,Microsoft,公司开发的一种声音文件格式,它符合,RIFF(Resource,InterchangeFileFo
3、rmat,),文件规范;,用于保存,Windows,平台的音频信息资源,被,Windows,平台及其应用程序所广泛支持;,WAV,格式支持,MSADPCM,CCITTALaw,CCITTLaw,和其它压缩算法;,支持多种音频位数,采样频率和声道,是,PC,机上最为流行的声音文件格式;,文件尺寸较大,多用于存储简短的声音片段。,WAV,文件,*.WAV,天津市智能信号与图像处理重点实验室,MPEG,是运动图像专家组,(,MovingPictureExpertsGroup,),的英文缩写,代表,MPEG,标准中的音频部分,即,MPEG,音频层,(,MPEGAudioLayer,);,MPEG,音频
4、文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层,(MPEGAudioLayer1/2/3),分别对应,MP1,MP2,和,MP3,这三种声音文件,;,MPEG,音频编码具有很高的压缩率,MP1,和,MP2,的压缩率分别为,4:1,和,6:18:1,而,MP3,的压缩率则高达,10:112:1,也就是说一分钟,CD,音质的音乐,未经压缩需要,10MB,存储空间,而经过,MP3,压缩编码后只有,1MB,左右,同时其音质基本保持不失真,因此,目前使用最多的是,MP3,文件格式,.,MPEG,文件,*.MP1/*.MP2/*.MP3,天津市智能信号与图像处理重点实验室,WMA(W
5、indows Media Audio),格式是来自于微软的重量级选手,后台强硬,音质要强于,MP3,格式;,是以减少数据流量但保持音质的方法来达到比,MP3,压缩率更高的目的,,WMA,的压缩率一般都可以达到,1,:,18,左右;,内置了版权保护技术可以限制播放时间和播放次数甚至于播放的机器等等,有效防盗版;,WMA,还支持音频流,(Stream),技术,适合在网络上在线播放。,WMA,文件,*.WMA,天津市智能信号与图像处理重点实验室,RealAudio,文件,*.RA/*.RM/*.RAM,RealAudio,文件是,RealNerworks,公司开发的一种新型流式音频,(Streami
6、ngAudio),文件格式,;,它包含在,RealMedia,中,主要用于在低速的广域网上实时传输音频信息,;,网络连接速率不同,客户端所获得的声音质量也不尽相同,:,对于,28.8Kbps,的连接,可以达到广播级的声音质量,;,如果拥有,ISDN,或更快的线路连接,则可获得,CD,音质的声音,.,天津市智能信号与图像处理重点实验室,APE,是一种无损压缩音频技术;,目前只能把音乐,CD,中的曲目和未压缩的,WAV,文件转换成,APE,格式,,MP3,文件还无法转换为,APE,格式;,APE,的压缩率并不高,虽然音质保持得很好,但是压缩后的容量也没小多少。一个,34MB,的,WAV,文件,压缩
7、为,APE,格式后,仍有,17MB,左右;,与采用,WinZip,或者,WinRAR,这类专业数据压缩软件来压缩音频文件不同,压缩之后的,APE,音频文件是可以直接被播放的。,APE,:最有前途的网络无损格式,天津市智能信号与图像处理重点实验室,MIDI,是乐器数字接口,(,MusicalInstrumentDigitalInterface,),的英文缩写,是数字音乐,/,电子合成乐器的统一国际标准,;,它定义了计算机音乐程序,合成器及其它电子设备交换音乐信号的方式,还规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议,可用于为不同乐器创建数字声音,可以模拟大提琴,小提琴,
8、钢琴等常见乐器,;,在,MIDI,文件中,只包含产生某种声音的指令,这些指令包括使用什么,MIDI,设备的音色,声音的强弱,声音持续多长时间等,计算机将这些指令发送给声卡,声卡按照指令将声音合成出来,MIDI,在重放时可以有不同的效果,这取决于音乐合成器的质量,;,相对于保存真实采样资料的声音文件,MIDI,文件显得更加紧凑,其文件尺寸通常比声音文件小得多。,MIDI,文件,*.MID/*.RMI,天津市智能信号与图像处理重点实验室,语音压缩编码中的数据量,=(,采样频率,量化位数,)/8(,字节数,),声道数目,压缩编码的目的,:,通过对资料的压缩,达到高效率存储和转换资料的结果,即在保证一
9、定声音质量的条件下,以最小的资料率来表达和传送声音信息,压缩编码的必要性,:,实际应用中,未经压缩编码的音频资料量很大,进行传输或存储是不现实的,.,所以要通过对信号趋势的预测和冗余信息处理,进行资料的压缩,这样就可以使我们用较少的资源建立更多的信息,压缩编码算法,天津市智能信号与图像处理重点实验室,波形编码,将时间域信号直接变换为数字代码,力图使重建语音波形保持原语音信号的波形形状,.,波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样,然后将幅度样本分层量化,并用代码表示,.,译码是其反过程,将收到的数字序列经过译码和滤波恢复成模拟信号。,波形编码特点,:,高话音质量,高码率,适于高
10、保真音乐及语音。,压缩编码算法,天津市智能信号与图像处理重点实验室,天津市智能信号与图像处理重点实验室,参数编码,参数编码又称为声源编码,是将信源信号在频率域或其它正交变换域提取特征参数,并将其变换成数字代码进行传输,.,译码为其反过程,将收到的数字序列经变换恢复特征参量,再根据特征参量重建语音信号,.,具体说,参数编码是通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的准确性,但重建信号的波形同原语音信号的波形可能会有相当大的差别。,参数编码特点,:,压缩比大,计算量大,音质不高,廉价,!,压缩编码算法,天津市智能信号与图像处理重点实验室,例如:,线性预测编码,(LPC),
11、及其它各种改进型都属于参数编码,.,该编码比特率可压缩到,2Kbit/s-4.8Kbit/s,甚至更低,但语音质量只能达到中等,特别是自然度较低。,天津市智能信号与图像处理重点实验室,混合编码,混合编码使用参数编码技术和波形编码技术,计算机的发展为语音编码技术的研究提供了强有力的工具,大规模,超大规模集成电路的出现,则为语音编码的实现提供了基础,.80,年代以来,语音编码技术有了实质性的进展,产生了新一代的编码算法,这就是混合编码,.,它将波形编码和参数编码组合起来,克服了原有波形编码和参数编码的弱点,结合各自的长处,力图保持波形编码的高质量和参数编码的低速率。,压缩编码算法,天津市智能信号与图像处理重点实验室,天津市智能信号与图像处理重点实验室,音频压缩技术之趋势有两个,:,降低资料率,提高压缩比,用于廉价,低保真场合,(,如,:,电话,).,追求高保真度,复杂的压缩技术,(,如,:CD).,总结,谢 谢!,天津市智能信号与图像处理重点实验室,






