ImageVerifierCode 换一换
格式:PPT , 页数:90 ,大小:827.50KB ,
资源ID:13186647      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/13186647.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(第4章音频媒体的压缩编码.ppt)为本站上传会员【xrp****65】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

第4章音频媒体的压缩编码.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,音频媒体的压缩编码标准与技术,第四章,本章内容,音频信号的相关概念,音频信号的基本概念;数字化方法;压缩编码的可行性与分类;声音类别与数据率,音频信息压缩编码技术标准体系,G.7XX,系列和,MPEG-X,系列,G.7XX,声音压缩编码技术,各标准的编码方法;编,/,解码器等,MPEG-X,声音压缩编码,语音识别,话音技术的研究热点,话音压缩编码(,Speech Coding,),话音识别(,Speech Recognition,),文本话音转换(,Text To Speech,),4.1,音频信号,声音的

2、产生源于物体的震动,这种震动引起物体周围气压的变化并传播,最后形成了声音。,声音是一种波,由两个参数描述:,频率:声音的尖锐程度。,振幅:声音的大小,又称响度。,音频信号是指处在,20Hz,20kHz,频率范围的声音。,音频频率范围,低频声音,(Infra-sound),:,0Hz,20Hz,人类听觉频率范围的声音:,20Hz,20kHz,高频,(Ultrasound),:,20kHz,1GHz,超声波,(,Hypersound,),:,1GHz,10THz,音频信号,声波图示,其中包含两个重要参数:频率和振幅,音频信号,根据音频信号占用频谱的不同,可以将音频信号分为,3,类:,1.,语音信号

3、又称话音信号,是人在正常情况下发出的一种声音,频率范围大约为,300Hz,3.4KHz,。,2.,音乐信号:各种乐器发出的声音,频率范围大约为,20Hz,20kHz,。,3.,噪音信号:人们不感兴趣的一类声音,通常研究如何去掉它。,4.1.1,音频信号的数字化,音频信号通常是连续信号,要利用计算机来处理,首先需要对其数字化。,模拟,语音,采样,量化,编码,samples,-0.25,-0.5,-0.75,0,0.25,0.5,0.75,samples,0100111,数字,序列,音频信号的数字化,对声音信号进行采样时,一般使用音频范围的,ADC,(,模数转换器)进行。不同的,ADC,主要区别

4、于以下两个重要参数:,(,1,)采样频率:,采样频率是指每秒钟采集声音样本的个数。它的取值应该满足,Nyquist,Theory,,,即采样频率,f,s,应该大于等于声音信号中最高频率,f,m,的两倍。,采样频率的单位是:,Hz,或,samples/s,。,如:数字电话的采样率为,8KHz,。,(,2,)采样精度:,采样精度用样本位数来表示。,样本位数越多,则声音质量越高,因为每个样本的量化值与原样本值越接近。,采样精度的单位是:,bits/sample,。,采样频率越高,采样精度越大,则数字化声音效果越好,但是需要的存储量就越大。因此在实际应用中,需要折中考虑声音质量和存储量的问题。,0,-

5、0.25,-0.5,-0.75,0.25,0.5,0.75,samples,Sampling Height,-1,另外一种表示精度的方法是信噪比(,SNR,),,表示为:,其中,,V,signal,表示信号电压,,V,noise,表示噪声电压,,SNR,的单位为分贝(,dB,)。,信噪比越高,声音质量越好。,声音硬件:,Microphone,ADC,Stored/,Transmitted,DAC,Sound,Analog Signal,Speaker,Analog Signal,Digital Signal,Reproduced Sound,Input Devices,Digital Proc

6、essor,Output Devices,4.1.2,音频信号压缩编码的可行性与分类,对于高质量和长时间的音频数据,由于数据量都特别大,为了有效地存储和传输,需要进行压缩编码。,压缩的可能性存在于:,(,1,)声音信号中包含大量的冗余信息,如样本相关性、时间周期相关性、基音相关性等。,(,2,)利用人的感知特性进行压缩。,(,3,)根据话音产生机理进行压缩。,衡量语音编码性能的主要因素有:,编码质量;,编码速率;,算法复杂度。,音频信号压缩技术,音频信号压缩编码的主要依据是人耳的听觉特性,主要有两点:,1.,人的听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号人耳听不到,.,2.,人的听

7、觉存在屏蔽效应。当几个强弱不同的声音同时存在时,强声使弱声难以听到,并且两者之间的关系与其相对频率的大小有关,.,声音编码算法就是通过这些特性来去掉更多的冗余数据,来达到压缩数据的目的。,无失真压缩,音频压缩方法,有失真压缩,Huffman,编码,行程编码,波形编码,参数编码,混合编码,全频带编码,PCM,DPCM,ADPCM,子带编码,自适应变换编码,ATC,心理学模型,矢量量化,线性预测,LPC,矢量和激励线性预测,VSELP,多脉冲线性预测,MP-LPC,码本激励线性预测,CELP,音频信号压缩编码的分类,根据压缩编码思想的不同,把音频编码技术分为三类:,(,1,)波形编码(,Wavef

8、orm Coding,),(,2,),源编码(,Source Coding,),参数编码,(,3,),混合编码(,Hybrid Coding,),波形编码:,没有利用语音信号自身的特点。波形编译码的想法是,不利用生成话音信号的任何知识而企图产生一种重构信号,它的波形与原始话音波形尽可能地一致。一般来说,这种编译码器的复杂程度比较低,数据速率在,16 kb/s,以上,质量相当高。低于这个数据速率时,音质急剧下降。如:,1.CD,质量音频数据量:,2x44100 x16,b/s,2.,电话质量音频数据量:,8Kx8,b/s,PCM(DPCM 56Kb/s;ADPCM 32Kb/s).,源编码,(,

9、参数编码,),:,参数化,利用语音信号的特点进行数据压缩。音源编译码的想法是企图从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。例如:信道声码器的工作原理:,将语音信号基于语音分析原理分解成一系列频率分量,将这些分量在信道中传输。,接收方基于收到的数据进行语音重建:将收到的数据中的频率分量作为语音的基频,产生一系列脉冲作为浊音,用噪声发生器的输出作为清音。,此方法可以将语音的传输速率降低至,2.4Kb/s,,甚至更低。,混合编码:,混合编译码器使用音源编译码技术和波形编译码技术,数据率和音质介于它们之间。使用的激励信号波形尽可能接近于原始话音信号的波形。例如,CEL

10、P,。,下图表示了目前这三种编译码器的话音质量和数据率的关系。,图,普通编译码器的音质与数据率,4.1.3,声音类别与数据率,声音根据频带分为,5,类:,(,1,)电话(,Telephone,),声音,(,2,)调幅(,Amplitude Modulation,),广播声音,(,3,)调频(,Frequency Modulation,),广播声音,(,4,)数字音频光盘(,CD-Audio,),声音,(,5,)数字录音带(,Digital Audio Tape,),声音,这些不同的声音数据区别于采样频率、采样精度、通道数、数据率和频率范围等参数。,声音类别与数据率,声音类别,采样率,(kHz)

11、精度,(bit/s),单声道,/,立体声,数据速率,(,未经压缩),频率范围(,Hz,),Phone,8,8,single,8kBps,200-3400Hz,AM,11.025,8,single,11.0kBps,50-7000Hz,FM,22.050,16,stereo,88.2kBps,20-15000Hz,CD,44.1,16,stereo,176.4kBps,20-20000Hz,DAT,48,16,stereo,192.0kBps,20-20000Hz,宽带音响,:20Hz,20kHz,声音类别与数据率,我们所熟悉的数字音频文件格式如下表所示:,文件扩展名,说明,.PCM,PCM,

12、数据序列,.VOC,声卡使用的音频文件格式,.WAV,微软使用的波形音频文件格式,.SND,NeXT,计算机使用的波形音频文件格式,.AIF,苹果计算机使用的波形音频文件格式,.MID,MIDI,文件格式,.RMI,微软使用的,MIDI,文件格式,未压缩的声音文件的存储量可用下式计算:,存储量(,B,),=,(,采样频率,HZ,采样位数,bit,声道数,时间秒),/8,4.1.4,声音质量的度量,声音质量的度量分为:客观质量度量和主观质量度量。,声音客观质量的度量用,信噪比,来展开:,信噪比(,SNR,)越大,声音质量越好;反之,信噪比越小,声音质量越差,声音主观质量的度量是利用人的感觉(听觉

13、来进行度量,,主观平均判分法(,MOS,),通常分,5,分:,1,分,:,劣,(,极反感,);2,分,:,差,(,讨厌但不反感,);3,分,:,中,(,有点讨厌,);4,分,:,良,(,基本可以接受,);5,分,:,优,(,效果很好,),声音质量的度量,Kbit/s,1,2,4,8,16,32,64,poor,sufficient,satisfactory,good,excellent,Achievabl,e Quality,year 1980,year 1990,year 2000,部分编码器的,MOS,分,编码器,MOS,分,64 kb/s,脉冲编码调制,(PCM),4.3,32 kb/

14、s,自适应差分脉冲编码调制,(ADPCM),4.1,16 kb/s,低时延码激励线性预测编码,(LD-CELP),4.0,8 kb/s,码激励线性预测编码,(CELP),3.7,3.8 kb/s,码激励线性预测编码,(CELP),3.0,2.4 kb/s,线性预测编码,(LPC),2.5,4.2,音频信息压缩编码技术标准体系,常见的音频压缩编码准则有,ITU,制定的,G.7XX,系列和,ISO/IEC,制定的,MPEG-X,系列。,G.7XX,是一组,ITU-T,标准,用于音频压缩和解压缩。它主要用于电话方面。在电话技术中,有两个主要的算法标准,分别定义在,-law,算法(美国使用)和,A-l

15、aw,算法(欧洲及世界其他国家使用)中。两者都是基于对数关系的,但对于计算机的处理来说,后者更为简单。,MPEG-X,是一组用于视频的编码方案,其中也有音频的编码部分,可以用于音频压缩编码。,1,电话质量的音频压缩编码技术标准,信号频率规定在,300Hz,3.4kHz,,,采用标准的脉冲编码调制,(PCM),,,当采样频率为,8kHz,,,进行,8bit,量化时,所得数据速率为,64kb/s,,,即一个数字电话。,PCM,标准,G,.,711,1972,年,CCITT,为电话质量和语音压缩制定,其速率为,64Kb,s,,,使用非线性量化技术,主要用于公共电话网中。,ADPCM,是利用样本与样本

16、之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术,,CCITT,为此制定了,G.721,推荐标准,这个标准叫做,32 kb/s ADPCM,。,在此基础上还制定了,G.721,的扩充推荐标准,G.723,,使用该标准的编码器的数据率可降低到,40 kb/s,和,24 kb/s,。,G.721,的输入信号是,G.711 PCM,代码,它的数据率为,64 kb/s,。,而,G.721 ADPCM,的输出是用,4,位表示的差分信号,它的采样率仍然是,8 kHz,,,它的数据率为,32 kb/s,,,这样就获得了,21,的数据压缩。,2,调幅广播质量的音频压缩编码技术标准,频率在,50Hz,

17、一,7kHz,范围。,G.722,标准是采用,16kHz,采样,,14bit,量化,信号数据速率为,224kbit,s,,,224kbit,s,可以被压缩成,64kbit,s.,采用子带编码方法,将输入音频信号经滤波器分成高子带和低子带两个部分,分别进行,ADPCM,编码,再混合形成输出码流,,224kbit,s,可以被压缩成,64kbit,s,,最后进行数据插入,(,最高插入速率达,16kbit,s),,因此利用,G.722,标准可以在窄带综合服务数据网,N-ISDN,中的一个,B,信道上传送调幅广播质量的音频信号,),。,3,高保真度立体声音频压缩编码技术标准,高保真立体声音频信号频率范围

18、是,50Hz,20kHz,,,采用,44,1kHz,采样频率,,16bit,量化进行数字化转换,其数据速率每声道达,705kbit,s,。,采样频率为,48kHz,,,44.1kHz,,,32kHz,MPEG,音频压缩技术的数据速率为每声道,32,448kbit,s,,适合于,CD,DA,光盘应用。,目前国际上比较成熟的高保真立体声音频压缩标准为,MPEG,音频,。,MPEG-1,和,MPEG-2,的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是利用人的,听觉系统的特性,来达到压缩声音数据的目的,这种压缩编码称为感知声音编码,(perceptual audio codi

19、ng),。,4.2.1 G.7XX,系列音频信号压缩编码标准,G.711 64 kbps,信道上的语音频率脉冲编码调制(,PCM,),G.721 32,kbit/s,自适应差分脉冲编码调制(,ADPCM,),G.722 64,kbit/s,下的,7 kHz,音频编码,G.722.1,带有低帧损耗的具有免提操作的系统在,24,kbit/s,和,32,kbit/s,上的编码,G.722.2,利用自适应多频率宽带(,AMR-WB,)以,16,kbit/s,多频率语音编码,G.723,:,G.723,是一种以,24Kbps,运行的基于,ADPCM,的有损耗压缩标准。其音质不如非压缩的,G.711PCM

20、标准以及基于,SBADPCM,的,G.722,标准。,G.723.1,和,G.723.2,用于,H.324,标准。,G.726 40,、,32,、,24,、,16,kbit/s,自适应差分脉冲编码调制,ADPCM,G.727 5-,、,4-,、,3-,和,2-bit/s,嵌入式自适应差分脉冲编码调制,ADPCM,G.728,利用低延迟代码线性预测以,16 bit/s,进行语音编码,G.729,利用共扼结构代数激励编码线性预测(,CS-ACELP,)以,8 bit/s,进行语音编码,4.2.2 MPEG-X,系列音频信号压缩标准,MPEG-1,制定于,1992,年,为工业级标准而设计。它处理音

21、频时,具有,CD(,指激光唱盘,),音质,质量级别基本与,VHS,相当。,MPEG-1,是针对整个音频范围的声音进行编码,采样频率为,48kHz,、采样精度为,16,位的立体声数据压缩到,256b/s,时,即在,6:1,的压缩率下,即使是专业测试员,也难以分辨出是解压声音还是原始声音。,4.2.2 MPEG-X,系列音频信号压缩标准,MPEG-2,制定于,1994,年,设计目标是高级工业标准的图象质量以及更高的传输率。,MPEG-2,可提供,CD,级的音质。,MPEG-2,的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道,和多达,7,个伴音声道,(DVD,可有,8,种语言配音的原因,

22、),。由于,MPEG-2,在设计时的巧妙处理,使得大多数,MPEG-2,解码器也可播放,MPEG-1,格式的数据,如,VCD,。,4.2.2 MPEG-X,系列音频信号压缩标准,两种声音数据压缩格式,(,1,),MPEG-2 Audio,,或者称为,MPEG-2,多声道(,Multichannel,)声音,又称为,MPEG-2 BC,(,Backward Compatible,,后向兼容),与,MPEG-1 Audio,是兼容的,。,(,2,),MPEG-2 AAC,(,Advanced Audio Coding,,先进的音频编码),通常称为非后向兼容,MPEG-2,NBC(Non,-Back

23、ward-Compatible,,非后向兼容,),标准,与,MPEG-1,声音格式不兼容。,MPEG-4,音频编码,1996,年,11,月在,Maceio,举行的,MPEG,第,37,次会议正式确定的,MPEG-2,先进音频编码,AAC,(,Advanced Audio Coding,),,已被作为目前正在制定的,MPEG-4,音频标准的一部分。,1996,年,3,月在意大利,Florence,举行的,MPEG,第,34,次会议上给出了,MPEG-4,音频验证模型,VM,的第一个完整描述。通过大量的核心实验(,Core Experiment,),,音频验证模型得到了迅速的发展。,1996,年,

24、11,月就公布了第一个,MPEG-4,的音频工作草案。在,MPEG,第,40,次会议上,结构音频,SA,(,Structured Audio,),和文语转换,TTS,(,Text to Speech,),被加到,MPEG-4,音频标准中,作为合成的音频编码部分。,1997,年,11,月在,Fribourg,举行的,MPEG,第,41,次会议公布了音频标准的最终标准草案(,Final Draft International Standard,),,内容与正式标准基本相同。,1999,年,1,月公布正式标准版本,1,2000,年,1,月公布标准的版本,2,4.2.2 MPEG-X,系列音频信号压缩

25、标准,4.2.2 MPEG-X,系列音频信号压缩标准,MPEG-4,音频标准(,ISO/IEC 14496-3,)分为自然音频编码和合成音频编码两大类。,MPEG-4,(,ISO/IEC 14496,)已建立了两个版本,正在开发第,3,版。,MPEG-4,音频部分促进广泛的应用,这些应用可能包括从智能语音到高质量多声道音频,从自然声音到合成声音。特别是,它支持由下述成分组成的音频对象的高效表示:,语音信号:,合成语音:,它允许一个文本或带有韵律参数的文本(基音轮廓,音素持续期等等)作为输入产生可理解的合成语音。,4.3 G.7XX,声音压缩编码,G.711,声音压缩编码,G.722,声音压缩编

26、码,G.723,声音压缩编码,G.729,声音压缩编码,各自的编码方法,编,/,解码器结构及工作原理,4.3.1 G.722,声音压缩编码,G.722,基于子带,ADPCM,技术,(SBADPCM),,它是将现有的带宽分成两个独立的子带信道分别采用差分脉冲编码调制算法。,G.722,压缩信号的带宽范围为,50Hz,到,7kHz,而,G.711,仅限于,4.4kHz,。,其比特率为,48,、,56,、,64Kbps,,,在标准模式下,采样速率是,16KHz,,,幅度深度为,14,比特。,1,、,G.722,的编码方法,采用子带自适应差分脉冲编码调制技术(,SB-ADPCM,)。,以上技术的操作方

27、法是:,用正交镜像滤波器(,QMF,),把频带分割成两个等带宽的子带,分别是高频带和低频带。,对两个子带中的信号采用,ADPCM,进行编码。,其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。,2,、,G.722,的编,/,解码器,G.722,音频编,/,解码器结构如下图所示:,a.,编码器,高子带,ADPCM,编码,音频信号输入,声音数据传送部件,发送正交镜像滤波器,低子带,ADPCM,编码,多路复合器,I,H,16Kbit/s,I,L,16Kbit/s,Xin,X,H,X,L,附加数据,0Kbit/s,8Kbit/s,16Kb

28、it/s,数据输入部件,高子带,ADPCM,解码,音频信号输出,声音数据传送部件,发送正交镜像滤波器,低子带,ADPCM,解码,多路复合器,I,H,16Kbit/s,I,L,16Kbit/s,Yout,Y,H,Y,L,附加数据,0Kbit/s,8Kbit/s,16Kbit/s,数据输出部件,b.,解码器,4.3.2 G.723,声音压缩编码,G.723,是,ITU-T,在,1996,年制订成型的一种多媒体语音编解码标准。其典型应用包括,IP,电话服务、,H.324,视频电话、无线电话、数字卫星系统、数电倍增设备,(DCME),、,公共交换电话网(,PSTN,)、,ISDN,及各种多媒体语音信息

29、产品。,G.723,标准传输码率有,5.3kb/s,和,6.3kb/s,两种,在编程过程中可随时切换,两种速率的区别在于采用的激励技术不同。,该标准主要包含了编码算法和解码算法。,G.723,声音压缩编码,5.3kb/s,的编码器采用代数码线预测激励(,ACELP,),;6.3kb/s,的编码器则采用多脉冲最大似然量化,(MP-MLQ),激励。,编码原理:从采集的语音信号中解析出声道模型参数,构造一个合成滤波器,采用合适的激励源激励,编码传输的参数主要是激励源与合成滤波器的参数。接收端根据传输编码参数,重构出激励源与合成滤波器进行解码,还原出来的数字语音信号经,D/A,转换器转换成模拟语音信号

30、G.723,是基于分析合成的声音压缩编码标准。,参数编码,此编码方法又称音源编码,其原理参见下图。,预加重,加窗,自相关函数,清,/,浊音判断,基音提取,线性预测编码,MUX,及量化编码,语音样本,编码,a,i,下面,首先介绍,G.723,中的参数编码方法,再由于参数编码方法中语音生成模型里使用的激励信号过于简单而造成话音质量不高的缺点,再介绍一种将波形编码与音源编码混合的编码方法。,参数编码原理:,通过分析声音的产生机理,建立数学模型。编码时从声音波形信号中提取生成声音的参数;解码时使用这些参数通过声音生成模型,重构出声音。,话音生成模型把声音的产生过程看成是由声带振动脉冲激励声道滤波器

31、的结果。,话音参数包括:清浊音比例、浊音周期、增益系数、滤波器参数等。,根据接收到的话音参数,基于下图中的生成过程进行话音重构:,脉冲序列发生器,随机噪声发生器,声道滤波器,基音周期,T,滤波器参数,音源幅度,音源幅度,语音输出,浊音,清音,a,i,4.3.3,GSM,编译码器简介,除了,ADPCM,算法已经得到普遍应用之外,还有一种使用较普遍的波形声音压缩算法叫做,GSM,算法。,GSM,是,G,lobal,S,ystem for,M,obile communications,的缩写,可译成全球数字移动通信系统。,GSM,算法是,1992,年柏林技术大学根据,GSM,协议开发的,这个协议是欧

32、洲最流行的数字蜂窝电话通信协议。,GSM,的输入是帧,(frame),数据,一帧,(20,毫秒,),由采样频率为,8 kHz,的带符号的,160,个样本组成,每个样本为,13,位或者,16,位的线性,PCM(linear,PCM),码。,GSM,编码器可把一帧,(16016,位,),的数据压缩成,260,位的,GSM,帧,压缩后的数据率为,1625,字节,相当于,13 kb/s,。由于,260,位不是,8,位的整数倍,因此编码器输出的,GSM,帧为,264,位的线性,PCM,码。采样频率为,8 kHz,、每个样本为,16,位的未压缩的话音数据率为,128 kb/s,,使用,GSM,压缩后的数据

33、率为:,(264,位,8000,样本,/,秒,)/160,样本,=13.2,千位,/,秒,GSM,的压缩比:,128:13.2=9.7,,近似于,10:1,。,4.4 MPEG-X,声音压缩编码,由于有必要确定一套通用的视频和音频声音编码方案,,ISO/IEC,标准组织成立了,ISO/IES JTC1/SC29/WG11,,即,MPEG,(,活动图像专家组)。该小组负责比较和评估几种低码速率数字声音编码技术,以产生一套国际标准,用于活动图像、相关声音信息及其结合,和用数字存储媒体(,DSM,),存储与重现。,MPEG,针对的,DSM,包括,CD-ROM,、,DAT,、,磁光碟和电脑磁盘。,MP

34、EG Audio标准是指MPEG-1 Audio、MPEG-2 Audio和MPEG-2 AAC,MPEG-4,Audio,和,MPEG-7,音频框架,与前面章节介绍的波形声音压缩编码,(,如,ADPCM),和参数编码,(,如,LPC),不同,,MPEG-1,和,MPEG-2,的声音数据压缩编码不是依 据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为,感知声音编码,(perceptual audio coding),。,进入,20,世纪,80,年代之后,尤其最近几年,人类在利用自身的听觉系统的特性来压缩声音数据方面取得了很大的进展

35、先后制定了,MPEG-1 Audio,MPEG-2 Audio,等标准,它们处理,10 Hz,20000 Hz,范围里的声音数据,使用“,心理声学模型,(psychoacoustic model)”,来达到压缩声音数据的目的。,“,听阈,频率,”,曲线,当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”。,听阈是随频率变化的,另一种极端的情况是声音强到使人耳感到疼痛。实验表明,如果频率为,1 kHz,的纯音的声强级达到,120 dB,左右时,人的耳朵就感到疼痛,这个阈值称为“痛阈”。,1.,对响度的感知,4.4.1,听觉系统的感知特性,在“听阈,频率”曲线和“痛阈,频率”曲线之

36、间的区域就是人耳的听觉范围。,2.,对音高的感知,客观上用频率来表示声音的音高,其单位是,Hz,。人耳可以听到的最低频率约,20 Hz,,最高频率约,18000 Hz,。,3.,掩蔽效应,一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应,.,前者称为掩蔽声音,(masking tone),,后者称为被掩蔽声音,(masked tone),。掩蔽可分成频域掩蔽和时域掩蔽。,频域掩蔽,也称同时掩蔽,(simultaneous masking),。,如图所示,一个声强为,60dB,、频率为,1000Hz,的纯音,另外还有一个,1100Hz,的纯音,前者比后者高,18dB,,在这种情况

37、下,,我们就只能听到,1000Hz,的强音。,要想让,2000Hz,的纯音也听不到,则需要把它降到比,1000Hz,的纯音低,45dB,。,一般弱纯音离强纯音越近就越容易被掩蔽。,听阈,60dB,1KHz,声音的掩蔽区域,45,临界频带,由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了,“,临界频带,(critical band),”,的概念。,-,人类听觉系统,HAS,在,20Hz,到,16kHz,范围内有,24,个临界频带,茨,维克尔得出的离散的临界宽度表。临界频带的单位叫,Bark(,巴克,),1Bark=,一个临界频带的宽度,f,(,频率,)500 Hz,的情况

38、下,1Bark9+4log(,f,/1000),临界频带是一个主观反映突然发生变化的带宽,也是人耳分割不同频率声音能力的一个基本近似。,人耳是以临界频带为单位对声音进行处理的。在一个临界频带内,耳朵的听觉感知特性很类似,很多心理声学特性都是相同的。,输入信号在临界频带内,即使加入更大的噪声,人耳也不能察觉出与原信号间的差别。,临界频带,临界,频率,(Hz),临界,频率,(Hz),频带,低端,高端,宽度,频带,低端,高端,宽度,0,0,100,100,13,2000,2320,320,1,100,200,100,14,2320,2700,380,2,200,300,100,15,2700,315

39、0,450,3,300,400,100,16,3150,3700,550,4,400,510,110,17,3700,4400,700,5,510,630,120,18,4400,5300,900,6,630,770,140,19,5300,6400,1100,7,770,920,150,20,6400,7700,1300,8,920,1080,160,21,7700,9500,1800,9,1080,1270,190,22,9500,12000,2500,10,1270,1480,210,23,12000,15500,3500,11,1480,1720,240,24,15500,22050,

40、6550,12,1720,2000,280,心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,因此就可以把这部分信号去掉。,心理声学模型中的另一个概念是,听觉掩饰特性,,意思是一种频率的声音阻碍听觉系统感受另一种频率的声音的现象。例如,同时有两种频率的声音存在,一种是,1000 Hz,的声音,另一种是,1100 Hz,的声音,但它的强度比前者低,18,分贝,因此,,1100 Hz,的声音就会听不到,比如在一安静房间里的普通谈话可以听得很清楚,但在播放摇滚乐的环境下同样的普通谈话就听不清楚了。声音压缩算法也同样可以确立这种特性的模型来取消更多的冗余数

41、据。,以上我们讨论了响度、音高和掩蔽效应,尤其是人的主观感觉。其中掩蔽效应尤为重要,它是心理声学模型的基础。,4.4.2 MPEG-1,声音压缩编码,PCM,,,ADPCM,音源特定编码:这种方法主要是针对话音的编码,300-3400Hz,如果用来编码音乐,质量比较差,MPEG-1,的声音压缩采用了另一种方法,称为子带编码,(sub-band coding,,,SBC),方法,这也是一种功能很强而且很有效的声音信号编码方法。与音源特定编码法不同,,SBC,不局限于只对话音进行编码,也不局限于哪一种声源。,SBC,的基本想法就是在编码过程中保留信号的带宽而扔掉被掩蔽的信号,其结果是编码之后还原的

42、声音,也就是解码或者叫做重构的声音信号与编码之前的声音信号不相同,但人的听觉系统很难感觉到它们之间的差别,MPEG,音频第一和第二层次编码是将输入音频信号进行采样频率为,48kHz,,,44.1kHz,,,32kHz,的采样,经滤波器组将其分为,32,个子带,同时利用,人耳屏蔽效应,,根据音频信号的性质计算各频率分量的,人耳屏蔽门限,,选择各子带的量化参数,获得高的压缩比。,MPEG,第三层次是在上述处理后再引入辅助子带,非均匀量化和熵编码技术,再进一步提高压缩比,。,MPEG-1,音频压缩标准,MPEG-1,音频层根据压缩质量和编码复杂度分为,Layer1,、,Layer2,、,Layer3

43、三层,层,1,的编码器最为简单,编码器的输出数据率为,384 kb/s,,,主要用于小型数字盒式磁带,(digital compact cassette,,,DCC),。,层,2,的编码器的复杂程度属中等,编码器的输出数据率为,256 kb/s,192 kb/s,,,其应用包括数字广播声音,(digital broadcast audio,,,DBA),、,数字音乐、,CD-I(compact disc-interactive),和,VCD(video compact disc),等。,层,3,的编码器最为复杂,编码器的输出数据率为,64 kb/s,,,主要应用于,ISDN,上的声音传输。广

44、泛用于,INTERNET,传播。,MPEG-1,的声音压缩速率,分层,算法,压缩比率,立体声音频的数据率,1,MUSICAM,4:1,384,kbps,2,MUSICAM,6:18:1,256192,kbps,3,ASPEC,10:112:1,128112,kbps,在尽可能保持,CD,音质为前提的条件下,,MPEG,声音标准一般所能达到的压缩率如表所示,,*,MUSICAM(Masking,pattern adapted Universal,Subband,Integrated Coding And Multiplexing),*,ASPEC(Adaptive,Spectral Percep

45、tual Entropy Coding of high quality musical signal),MPEG-1,音频压缩标准,MPEG-1 Audio(ISO/IEC 11172-3),压缩算法是世界上第一个高保真声音数据压缩国际标准,并且得到了极其广泛的应用。虽然,MPEG,声音标准是,MPEG,标准的一部分,但它也完全可以独立应用。数据的输入,/,输出图如下:,虽然,MPEG,声音标准是,MPEG,标准的一部分,但它也完全可以独立应用。,MPEG-1,音频压缩标准,MPEG-1 Audio,的编码对象是,20-20kHz,的宽带声音,因此它采用了感知子带编码。或叫做,子带编码,(su

46、b-band coding,,,SBC),。,利用子带编码达到既,压缩声音数据又尽可能保留声音原有质量,的目的。,这种方法的具体思想是首先把时域中的声音数据变换到频域中的多个自带当中,对每个子带里的信号分别进行量化和编码,根据心理声学模型确定样本的精度,从而达到压缩数据量的目的。,MPEG,声音数据压缩的基础是,量化,。,虽然量化会带来失真,但,MPEG,标准要求量化失真对于人耳来说是感觉不到的。在,MPEG,标准的制定过程中,,MPEG-Audio,委员会作了大量的主观测试实验。实验表明,采样频率为,48 kHz,、样本精度为,16,比特的声音数据压缩到,256 kb/s,时,即在,6,:,

47、1,的压缩率下,即使是专业测试员也很难分辨出是原始声音还是编码压缩后的声音。,1.MPEG-1,编码器,输入声音信号经过一个“时间,-,频率多相滤波器组”变换到频域里的多个子带中。,滤波器组:实现时域到频域的转换,采用多相正交分解滤波器组将数字化的宽带音频信号分成,32,个子带,输入声音信号同时经过“心理声学模型,(,计算掩蔽特性,)”,,该模型计算以频率为自变量的噪声掩蔽阈值,(masking,threshold,),,查看输入信号和子带中的信号以确定每个子带里的信号能量与掩蔽阈值的比率。,“量化和编码”部分用信掩比,(signal-to-mask ratio,,,SMR),来决定分配给子带

48、信号的量化位数,使量化噪声低于掩蔽阈值。,最后通过“数据流帧包装”将量化的子带样本和其他数据按照规定的称为“帧,(frame)”,的格式组装成位数据流。,MPEG-1,声音压缩编码,MPEG-1,音频编码示意图:,Uncompressed Audio Data,FilterBanks,Quantization,32 Sub-bands,Psychoacoustical,Model,Multiplexer,Entropy Coder,Compressed Audio Data,Control,MPEG basic steps of audio encoding,2.MPEG-1,解码器,解码器对

49、位数据流进行,解码,,恢复被量化的子带样本值以重建声音信号。由于解码器无需心理声学模型,只需拆包、重构子带样本和把它们变换回声音信号,因此解码器比编码器简单得多。,3.,编码层,MPEG,声音压缩定义了,3,个分明的层次,它们的基本模型是相同的。,层,1,是最基础的,层,2,和层,3,都在层,1,的基础上有所提高。,每个后继的层次都有更高的压缩比,但需要更复杂的编码解码器。,MPEG,声音的每一个层都自含,SBC,编码器,其中包含“时间,-,频率多相滤波器组”、“心理声学模型,(,计算掩蔽特性,)”,、“量化和编码”和“数据流帧包装”,而高层,SBC,可使用低层,SBC,编码的声音数据。,MP

50、EG,的声音数据分成帧,(frame),,,层,1,每帧包含,384,个样本的数据,每帧由,32,个子带分别输出的,12,个样本组成。,层,即称掩蔽模式通用子带集成编码与多路复用,层,2,对层,1,作了一些直观的改进,相当于,3,个层,1,的帧,层,2,和层,3,每帧有,1152,个样本。它使用的心理声学模型除了使用频域掩蔽特性之外还利用了时间掩蔽特性,并且在低、中和高频段对位分配作了一些限制,对位分配、比例因子和量化样本值的编码也更紧凑。,由于层,2,采用了上述措施,因此所需的位数减少了,这样就可以有更多的位用来表示声音数据,音质也比层,1,更高。,典型的码流为每通道,128,Kbit,/S

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服