第三讲话音编码简介-PPT.pptx

资源描述

第三讲话音编码简介衡量话音编码器得因素衡量话音编码器得因素衡量话音编码器得因素衡量话音编码器得因素n n音频质量音频质量音频质量音频质量n n数据率数据率数据率数据率n n编编编编/解码延时解码延时解码延时解码延时n n算法复杂度算法复杂度算法复杂度算法复杂度n n价格因素价格因素价格因素价格因素编码器编码器解码器解码器输入输入信道传输信道传输输出输出编码数据编码数据编解码过程编解码过程编解码过程编解码过程输入数据量与编码后数据量得比值输入数据量与编码后数据量得比值,称为压缩比。称为压缩比。第第2节节话音编译码器话音编译码器分类分类分类分类:n n波形编译码器波形编译码器波形编译码器波形编译码器(waveform coderwaveform coderwaveform coderwaveform coder):):):):不利用生成话音得信号不利用生成话音得信号不利用生成话音得信号不利用生成话音得信号得任何知识得任何知识得任何知识得任何知识,将话音视为一种普通得声音将话音视为一种普通得声音将话音视为一种普通得声音将话音视为一种普通得声音,直接对波形信直接对波形信直接对波形信直接对波形信号进行采样与量化。例如号进行采样与量化。例如号进行采样与量化。例如号进行采样与量化。例如PCMPCMPCMPCM、DPCMDPCMDPCMDPCM、ADPCMADPCMADPCMADPCM等。等。等。等。n n音源编译码器音源编译码器音源编译码器音源编译码器(Source coderSource coderSource coderSource coder):):):):也叫参数编译码器、声码也叫参数编译码器、声码也叫参数编译码器、声码也叫参数编译码器、声码器器器器(vocodervocodervocodervocoder)。它从话音波形信号中提取生成话音得参数。它从话音波形信号中提取生成话音得参数。它从话音波形信号中提取生成话音得参数。它从话音波形信号中提取生成话音得参数,使用这些参数通过话音生成模型重构出话音。使用这些参数通过话音生成模型重构出话音。使用这些参数通过话音生成模型重构出话音。使用这些参数通过话音生成模型重构出话音。n n混合编译码器混合编译码器混合编译码器混合编译码器(Hybrid coderHybrid coderHybrid coderHybrid coder):):):):综合使用上述两种技术。综合使用上述两种技术。综合使用上述两种技术。综合使用上述两种技术。使用得激励信号波形尽可能接近于原始话音信号得波形。使用得激励信号波形尽可能接近于原始话音信号得波形。使用得激励信号波形尽可能接近于原始话音信号得波形。使用得激励信号波形尽可能接近于原始话音信号得波形。例如例如例如例如CELPCELPCELPCELP。1 1、脉冲编码调制脉冲编码调制(PCM)(PCM)一、波形编码技术一、波形编码技术PCMPCM得量化方式得量化方式得量化方式得量化方式均匀量化与非均匀量化量化就是一种有损编码量化就是一种有损编码非均匀量化非均匀量化非均匀量化非均匀量化n n对小信号采用小得量化间隔对小信号采用小得量化间隔对小信号采用小得量化间隔对小信号采用小得量化间隔,对大信号采用大得量化间隔对大信号采用大得量化间隔对大信号采用大得量化间隔对大信号采用大得量化间隔,这样可以用较少得位数编码。这样可以用较少得位数编码。这样可以用较少得位数编码。这样可以用较少得位数编码。n n对大信号来说对大信号来说对大信号来说对大信号来说,虽然绝对量化误差较大虽然绝对量化误差较大虽然绝对量化误差较大虽然绝对量化误差较大,但就是因为大信号但就是因为大信号但就是因为大信号但就是因为大信号出现得机会不多出现得机会不多出现得机会不多出现得机会不多,所以对总得话音质量影响不大。所以对总得话音质量影响不大。所以对总得话音质量影响不大。所以对总得话音质量影响不大。n n非均匀量化相对于均匀量化就是一种压缩。量化间隔越大非均匀量化相对于均匀量化就是一种压缩。量化间隔越大非均匀量化相对于均匀量化就是一种压缩。量化间隔越大非均匀量化相对于均匀量化就是一种压缩。量化间隔越大,压缩比越大。压缩比越大。压缩比越大。压缩比越大。非均匀量化中两种压扩算法非均匀量化中两种压扩算法非均匀量化中两种压扩算法非均匀量化中两种压扩算法数字电话通信标准数字电话通信标准数字电话通信标准数字电话通信标准G G G G、711711711711(CCITTCCITTCCITTCCITT)律律律律(-Law)压扩压扩压扩压扩:其中其中为参数为参数为参数为参数(可取可取可取可取255),255),255),255),x x x x为规格化为规格化为规格化为规格化(绝对值小于等于绝对值小于等于绝对值小于等于绝对值小于等于1)1)1)1)得输入信号幅度。得输入信号幅度。得输入信号幅度。得输入信号幅度。A A律律(A-Law)(A-Law)压扩压扩其中其中A A为参数为参数为参数为参数(可取可取可取可取87878787、56),56),56),56),x x x x为规格化为规格化为规格化为规格化(绝对值小于等于绝对值小于等于绝对值小于等于绝对值小于等于1)1)1)1)得输入信号幅度。得输入信号幅度。得输入信号幅度。得输入信号幅度。2 2、波形编码中得增量调制波形编码中得增量调制波形编码中得增量调制波形编码中得增量调制(delta modulation)(delta modulation)增量调制增量调制(DM)(DM)自适应增量调制自适应增量调制(ADM)(ADM)量化阶可调量化阶可调,斜率过载时调大斜率过载时调大,粒状噪声时调小。粒状噪声时调小。3 3 3 3、自适应脉冲调制自适应脉冲调制自适应脉冲调制自适应脉冲调制(APCMAPCMAPCMAPCM)n nAPCMAPCMAPCMAPCM就是一就是一就是一就是一种根据输入种根据输入种根据输入种根据输入信号幅度大信号幅度大信号幅度大信号幅度大小自动改变小自动改变小自动改变小自动改变量化阶大小量化阶大小量化阶大小量化阶大小得一种波形得一种波形得一种波形得一种波形编码技术。编码技术。编码技术。编码技术。n n边信息为量边信息为量边信息为量边信息为量化步长。化步长。化步长。化步长。n n例例:设仅有设仅有设仅有设仅有1 1,与与与与5 5两种量化步长两种量化步长两种量化步长两种量化步长,输入输入输入输入:1,2,3,3,10,12,16,2,3,2,1:1,2,3,3,10,12,16,2,3,2,1前向输出前向输出前向输出前向输出:1,2,3,3,2,2,3,2,3,2,11,2,3,3,2,2,3,2,3,2,1 1 5 1 1 5 1 解码解码解码解码:1,2,3,3,10,10,15,2,3,2,11,2,3,3,10,10,15,2,3,2,1后向输出后向输出后向输出后向输出:1,2,3,3,10,2,3,0,3,2,11,2,3,3,10,2,3,0,3,2,1解码解码解码解码:1,2,3,3,10,10,15,0,3,2,11,2,3,3,10,10,15,0,3,2,1解码时解码时解码时解码时,后向自适应需要量化阶适配器。后向自适应需要量化阶适配器。后向自适应需要量化阶适配器。后向自适应需要量化阶适配器。思考思考:三个量化阶适配器就是怎样得算法？三个量化阶适配器就是怎样得算法？12大家应该也有点累了，稍作休息大家有疑问的，可以询问和交流大家有疑问的，可以询问和交流大家有疑问的，可以询问和交流大家有疑问的，可以询问和交流4 4 4 4、差分脉冲编码调制差分脉冲编码调制差分脉冲编码调制差分脉冲编码调制(DPCMDPCMDPCMDPCM)n nDPCMDPCMDPCMDPCM就是利就是利就是利就是利用相邻样本用相邻样本用相邻样本用相邻样本之间冗余信之间冗余信之间冗余信之间冗余信息来进行编息来进行编息来进行编息来进行编码得一种数码得一种数码得一种数码得一种数据压缩技术。据压缩技术。据压缩技术。据压缩技术。n n输出得实际输出得实际输出得实际输出得实际上就是差值上就是差值上就是差值上就是差值得量化值。得量化值。得量化值。得量化值。例例:量化步长为量化步长为2,预测器为相等。预测器为相等。输入输入:2,3,4,5,6,5,4,3输出输出:1,0,1,0,1,0,-1,0解码器解码器逆量化器逆量化器预测器预测器I(k)d(k)S(k)Se(k+1)输入输入:1,0,1,0,1,0,-1,0输出输出:2,2,4,4,6,6,4,4误差由量化引起！误差由量化引起！预测预测预测预测:用过去得用过去得用过去得用过去得k k个信号预测当前得信号值。个信号预测当前得信号值。个信号预测当前得信号值。个信号预测当前得信号值。线性预测线性预测线性预测线性预测:如果如果如果如果ai i就是常数就是常数就是常数就是常数,则为时不变线性预测则为时不变线性预测则为时不变线性预测则为时不变线性预测,否则否则否则否则为自适应线性预测为自适应线性预测为自适应线性预测为自适应线性预测,预测器就就是一个滤波器。预测器就就是一个滤波器。预测器就就是一个滤波器。预测器就就是一个滤波器。最简单得预测方程最简单得预测方程最简单得预测方程最简单得预测方程:5 5、自适应差分脉冲调制自适应差分脉冲调制自适应差分脉冲调制自适应差分脉冲调制(ADPCMADPCM)ADPCMADPCM综合综合了了APCMAPCM得自得自适应特性与适应特性与DPCMDPCM系统得系统得差分特性差分特性左图得量化左图得量化阶调整属于阶调整属于后向自适应后向自适应数字电话通信标准数字电话通信标准数字电话通信标准数字电话通信标准G G、721721(CCITTCCITT)解码器解码器逆量化器逆量化器预测器预测器I(k)d(k)S(k)S(k-1)量化阶调整量化阶调整n nADPCMADPCMADPCMADPCM就是利用样本与样本之间得高度相关性与量化阶自适应就是利用样本与样本之间得高度相关性与量化阶自适应就是利用样本与样本之间得高度相关性与量化阶自适应就是利用样本与样本之间得高度相关性与量化阶自适应来压缩数据得一种波形编码技术来压缩数据得一种波形编码技术来压缩数据得一种波形编码技术来压缩数据得一种波形编码技术,CCITTCCITTCCITTCCITT为此制定了为此制定了为此制定了为此制定了G G G G、721721721721推荐推荐推荐推荐标准标准标准标准,这个标准叫做这个标准叫做这个标准叫做这个标准叫做32 kb/s ADPCM32 kb/s ADPCM32 kb/s ADPCM32 kb/s ADPCM。在此基础上还制定了。在此基础上还制定了。在此基础上还制定了。在此基础上还制定了G G G G、721721721721得扩充推荐标准得扩充推荐标准得扩充推荐标准得扩充推荐标准G G G G、723723723723,使用该标准得编码器得数据率可降使用该标准得编码器得数据率可降使用该标准得编码器得数据率可降使用该标准得编码器得数据率可降低到低到低到低到40 kb/s40 kb/s40 kb/s40 kb/s与与与与24 kb/s24 kb/s24 kb/s24 kb/s。n nG G G G、721721721721得输入信号就是得输入信号就是得输入信号就是得输入信号就是G G G G、711 PCM711 PCM711 PCM711 PCM代码代码代码代码(数据率为数据率为数据率为数据率为64kb/s)64kb/s)64kb/s)64kb/s)。而。而。而。而G G G G、721 ADPCM721 ADPCM721 ADPCM721 ADPCM得输出就是用得输出就是用得输出就是用得输出就是用4 4 4 4位表示得差分信号位表示得差分信号位表示得差分信号位表示得差分信号,它得采样率与它得采样率与它得采样率与它得采样率与G G G G、711711711711相同都就是相同都就是相同都就是相同都就是8kHz8kHz8kHz8kHz(信号频率信号频率信号频率信号频率3 3 3 3、4KHz4KHz4KHz4KHz),),),),它得数据率为它得数据率为它得数据率为它得数据率为32kb/s32kb/s32kb/s32kb/s,这样就获得了这样就获得了这样就获得了这样就获得了21212121得数据压缩。得数据压缩。得数据压缩。得数据压缩。6 6、子带自适应差分脉冲编码调制子带自适应差分脉冲编码调制子带自适应差分脉冲编码调制子带自适应差分脉冲编码调制(SB-ADPCM)(SB-ADPCM)数字电话通信标准数字电话通信标准数字电话通信标准数字电话通信标准G G、722722(CCITTCCITT)n nG G G G、722722722722就是就是就是就是CCITTCCITTCCITTCCITT推荐得音频信号编码译码标准。推荐得音频信号编码译码标准。推荐得音频信号编码译码标准。推荐得音频信号编码译码标准。n nG G G G、722722722722标准得数据率为标准得数据率为标准得数据率为标准得数据率为64kb/s64kb/s64kb/s64kb/s,采样频率由采样频率由采样频率由采样频率由8kHz8kHz8kHz8kHz提高到提高到提高到提高到16kHz16kHz16kHz16kHz,就是就是就是就是G G G G、711PCM711PCM711PCM711PCM采样率得采样率得采样率得采样率得2 2 2 2倍倍倍倍,被编码得信号频率由被编码得信号频率由被编码得信号频率由被编码得信号频率由原来得原来得原来得原来得3 3 3 3、4kHz4kHz4kHz4kHz扩展到扩展到扩展到扩展到7kHz7kHz7kHz7kHz。这就使音频信号得质量有很。这就使音频信号得质量有很。这就使音频信号得质量有很。这就使音频信号得质量有很大改善大改善大改善大改善,由数字电话得话音质量提高到调幅由数字电话得话音质量提高到调幅由数字电话得话音质量提高到调幅由数字电话得话音质量提高到调幅(AM)(AM)(AM)(AM)无线电广无线电广无线电广无线电广播得质量。播得质量。播得质量。播得质量。二、二、音源编译码音源编译码模拟人体产生话音得原理模拟人体产生话音得原理,通过话音生成模型重构出话音。通过话音生成模型重构出话音。通过话音生成模型重构出话音。通过话音生成模型重构出话音。1 1、话音得形成原理、话音得形成原理、话音得形成原理、话音得形成原理说话得时候说话得时候,声门处气声门处气流冲击声带产生振动流冲击声带产生振动,然后通过声道响应变然后通过声道响应变成语音。由于发不同成语音。由于发不同音时音时,声道得形状不同声道得形状不同,所以听到不同得语音。所以听到不同得语音。进一步物理建模进一步物理建模,声门可以等效为一个激励源声门可以等效为一个激励源(输入信号输入信号),声道可以等效为一个时变滤波器声道可以等效为一个时变滤波器(系统系统)。2、对输入得气流、对输入得气流(激励激励)建模建模浊音浊音(voiced sounds):声道打开声道打开,声带在先打开后关闭声带在先打开后关闭,气流经气流经过使声带要发生张驰振动过使声带要发生张驰振动,变为准周期振动气流。浊音得激励变为准周期振动气流。浊音得激励源被等效为准周期得脉冲信号。源被等效为准周期得脉冲信号。清音清音(unvoiced sounds):声带不振动声带不振动,而在某处保持收缩而在某处保持收缩,气流气流在声道里收缩后高速通过产生湍流在声道里收缩后高速通过产生湍流,再经过主声道再经过主声道(咽、口腔咽、口腔)得调整最终形成清音。清音得激励源被等效为一种白噪声信号。得调整最终形成清音。清音得激励源被等效为一种白噪声信号。爆破音爆破音(plosive sounds):声道关闭之后产生压缩空气然后突然声道关闭之后产生压缩空气然后突然打开声道所发出得声音。打开声道所发出得声音。话音产生得数字模型话音产生得数字模型话音产生得数字模型话音产生得数字模型周期脉冲序周期脉冲序列发生器列发生器伪随机噪声伪随机噪声产生器产生器周期周期时变数字滤时变数字滤波器波器音量控制音量控制声道参数声道参数语音语音输出输出浊浊/清选择清选择3、滤波器、滤波器用滤波器来模仿声道。编码得结果其实就就是滤波器得用滤波器来模仿声道。编码得结果其实就就是滤波器得规格、发声或者不发声得标志与有声话音得音节周期规格、发声或者不发声得标志与有声话音得音节周期,并且并且每隔每隔1020 ms更新一次。更新一次。解码器知道使用什么规格得滤波器后解码器知道使用什么规格得滤波器后,计算激励通过滤计算激励通过滤波器得输出就就是解码过程。波器得输出就就是解码过程。上节讲到得线性预测方法可用来生成滤波器。称为线性上节讲到得线性预测方法可用来生成滤波器。称为线性预测编码预测编码(LPC,linear predictive codinglinear predictive coding)。4、特点、特点数据率在数据率在2、4 kb/s左右左右,产生得语音虽然可以听懂产生得语音虽然可以听懂,但其质量远远低于自然话音。但其质量远远低于自然话音。增加数据率对提高合成话音得质量无济于事增加数据率对提高合成话音得质量无济于事,这就这就是因为受到话音生成模型得限制。是因为受到话音生成模型得限制。保密性能好保密性能好,一直用在军事上。一直用在军事上。三、混合编译码简介三、混合编译码简介混合编译码想法就是结合波形编译码与音源编译码思想。即混合编译码想法就是结合波形编译码与音源编译码思想。即寻找合适得滤波器寻找合适得滤波器,又同时寻找合适得激励又同时寻找合适得激励(不再就是根据人得发不再就是根据人得发生模型确定激励生模型确定激励,而就是计算得出而就是计算得出,所以可以不必考虑清音与浊音所以可以不必考虑清音与浊音)。最成功并普遍使用得就是时域合成最成功并普遍使用得就是时域合成-分析分析AbS(analysis-by-AbS(analysis-by-synthesis)synthesis)编译码器。这种编译码器使用声道线性预测滤波器模编译码器。这种编译码器使用声道线性预测滤波器模型型(LPCLPC),),不使用两个状态不使用两个状态(有声有声/无声无声)得激励。企图寻找一种激得激励。企图寻找一种激励信号励信号,使用这种信号激励产生得波形尽可能接近于原始话音得使用这种信号激励产生得波形尽可能接近于原始话音得波形。并命名为多脉冲激励波形。并命名为多脉冲激励MPE(multi-pulse excited)MPE(multi-pulse excited)编译码器编译码器,数据率数据率10Kb/s10Kb/s左右。左右。在此基础上随后出现得就是等间隔脉冲激励在此基础上随后出现得就是等间隔脉冲激励RPE(regular-RPE(regular-pulse excited)pulse excited)编译码器、码激励线性预测编译码器、码激励线性预测CELP(code excited CELP(code excited linear predictive)linear predictive)编译码器与混合激励线性预测编译码器与混合激励线性预测MELP(mixed MELP(mixed excitation linear prediction)excitation linear prediction)等编译码器。等编译码器。译码器译码器AbS编译码器得一般结构如图所示编译码器得一般结构如图所示:编码器编码器

展开阅读全文