工学语音信号数字化及压缩编码.pptx-资源下载-咨信网-让知识获取变得高效

工学语音信号数字化及压缩编码.pptx

1、2024/4/8 周一1第三讲语音信号数字化及压缩编码（2）2024/4/8 周一2DPCMv降低语音编码速率的必要性模拟单边带多路载波电话的带宽4K，而PCM的带宽的理论值为32K在频带受限的应用场合经济性太低，如卫星通信、移动通信等PCM占用高带宽的原因分析v为满足语音信号的高动态范围而采用了多位的量化v对每个采样点都进行量化，没有考虑语音信号的前后相关性2024/4/8 周一3v预测编码的概念相邻样点之间可能只有一个量化间隔或少数个量化间隔的差别，PCM传送的信息存在冗余在编码前就去掉相关性很强的冗余，然后再进行编码传送预测编码，就是根据过去的信号样值预测下一个样值，并且把预测值与现实

2、的采样值之差进行量化加以编码和传送在接收端，经过相同的预测和滤波，即可得到原始信号波形2024/4/8 周一4vDPCM基本原理2024/4/8 周一5vDPCM性能一般总是大于1，称为DPCM处理增益，其值主要取决于预测的效果由于量化的是样值与预测值的差值信号，因此动态范围可以减小，同时也可有效减小量化误差，从而使DPCM在较低的编码率下获得较高的信噪比质量需要研究的问题是：如何设计预测器获得更好的SNRv零点预测器v极点预测器v最佳预测器2024/4/8 周一6v极点预测器N阶预测器的输出是前N个本地重建值的线性组合由于H（Z）只有极点，称这种预测器为全极点预测器2024/4/8 周一7

3、v零点预测器M阶预测器的输出是前M个量化值的线性组合2024/4/8 周一8v零极点预测器把零点预测器和极点预测器组合在一起，即构成零极点预测器2024/4/8 周一9v最佳预测器确定一组最佳预测系数，使得最小在全极点模型下，并忽略量化误差最终输出的信噪比与预测阶数有关2024/4/8 周一10增量调制（，DeltaM）(1)简单增量调制可以认为是一位编码时的特例，但编码的是差值信号。编码过程2024/4/8 周一11Q数码形成Z-1C(n)S(n)e(n)-+Sl(n)解码增量调制编码器增量调制解码器2024/4/8 周一12差值信号2024/4/8 周一13译码过程实际编码译码器常用简

4、单RC积分器和比较器来实现和2024/4/8 周一14(2)斜率过载和量化信噪比当信号变化速率超出波形变化速率时，会出现斜率过载现象，以单频信号为例2024/4/8 周一152024/4/8 周一16量化噪声量化信噪比2024/4/8 周一17通常认为在内均匀分布，则低通滤波后2024/4/8 周一18临界过载时信噪比与信号幅度有关，信号幅度小，信噪比降低2024/4/8 周一19例：结论：与三次方成正比，提高一倍，增大9 与成反比，信号频率提高一倍，下降62024/4/8 周一20简单增量调制的性能改进简单增量调制有两个问题：斜率过载动态范围2024/4/8 周一21(1)

5、数字压扩自适应增量调制可同时解决动态范围和斜率过载问题。基本概念：如同非均匀中那样，改变量化间隔。如果连续出现多个“1”或者“0，即可认为信号有出现过载的可能，从而增大，使其本地译码信号跟上变化。如果量阶随信号瞬时压扩，则称为瞬时压扩，如果量阶随语音音节时间间隔中信号的平均斜率变化而进行压扩，则称为CVSD连续可变斜率一音节基音周期（520）ms2024/4/8 周一22(2).增量总和调制可解决斜率过载问题其要点是：将信号先进行积分，改变其频率响应。使高频分量幅度下降（与预加重相反），然后再进行编码。为此，在接收端为了不失真恢复原信号，需要将解码后信号进行微分。2024/4/8 周一2

6、3信道误码对的影响对简单有2024/4/8 周一24例如：抗误码性能优于概念上来看：个别误码不会引起信号严重恶化2024/4/8 周一25简单增量调制与PCM的性能比较v抽样频率PCM系统的抽样频率8K 系统的抽样频率不能根据抽样定理来确定，而需要根据斜率过载条件以及信噪比来确定，一般情况下，为保证不发生斜率过载以及保证与PCM系统有相同的信噪比，的抽样频率将远高于PCM系统v带宽PCM码速率64Kbit/s，带宽需求32K如要求与PCM有相同的传输质量，则要求抽样频率100K以上，带宽要求50K 一般速率为32Kbit/s或16Kbit/s，但质量不如PCM 2024/4/8 周一26v

7、量化信噪比（比较单频正弦情况）v抗信道误码性能v 优于PCMv设备复杂度v单路简单，多路PCM简单2024/4/8 周一27ADPCMv采用自适应的必要性由于不同的讲话人的语音信号的特性各不相同语音信号只能认为是短时平稳采用固定的预测系数不可能对所有的语音信号获得最好的结果，因此有必要采取自适应的算法ADPCM的设计思路v尽可能消除语音信号中的冗余v对消除冗余后的信号进行有效的比特分配，从自适应角度进行最佳编码自适应的方法v自适应量化v自适应预测2024/4/8 周一28v自适应量化针对被量化信号的变化状态，随时调节量化台阶大小以匹配输入信号的时变方差前向估值的自适应量化v对输入信号尚未量化

8、的样本计算出其前向估值大小v需要缓存训练的样本，并传送相关的边信息，因此引入了编码延时和占用了一定的信道容量后向估值的自适应量化v利用量化器的输出样本计算输出信号的方差估值并确定量化台阶v没有延时，但影响估值的追踪速度2024/4/8 周一29v自适应预测前向估值的自适应预测v思路与前向估值量化一致，同样有编码延时及边信息传输等问题后向估值的自适应预测v利用已量化的样本或发送数据更新预测系数2024/4/8 周一30信源编码v信源编码的目的减少信源输出符号序列的冗余度，提高符号的平均信息量v信源编码的主要方法针对信源输出的符号序列的统计特性，寻找一定的方法把信源输出序列符号变换为最短的码字序列

9、使每个码元所携带的平均信息量为最大，同时又尽可能保证无失真的恢复出原来的符号序列信源编码的核心就是研究压缩编码算法，用尽可能低的传输码率获得尽可能好的质量2024/4/8 周一31匹配编码v根据编码对象出现的概率分配不同长度的代码，以保证总的代码长度最短v需要知道信号的概率分布，可采用数学模型建模的方式或根据大量样本信号进行统计得到v典型编码算法：Huffman编码预测编码v利用信号之间的相关性，预测未来的信号，对预测的残差信号进行编码变换编码v利用信号在不同的函数空间分布的不同，选择合适的函数将信号从一种信号空间变换到另一种有利于压缩编码的信号空间，再进行编码v常用的函数变换：DFT、Wa

10、lsh、DCT、Haar识别编码v分解文字、语音、图象的基本特征，与汇集这些基本特征的样本集进行对照识别，选择失真最小的样本编码传送v可用于印刷、打印等标准形状的文字、符号和数据的编码2024/4/8 周一32v信源编码算法信源编码定理v一个熵为H的信源，当信源速率为R时，只要RH，则能够以任意小的错误概率进行编码；反之，如果RH，则无论采用多么复杂的编码器和译码器，错误概率都不可能达到任意小vShannon在1948年证明了该定理，但并没有指出具体的编解码算法v信源编码与失真度量编码失真v原始信号x经过编码以及解码后恢复成x，失真量即为x与x之间的保真度或近似度的度量v常用的失真度量：汉明失

11、真、均方误差等v以一定的、可以接受的失真换取较高的信源压缩效率2024/4/8 周一33语音与图像压缩编码类型类型带宽带宽KHZ采样率采样率KHZ比特比特/样点样点比特率比特率kb/s电话语音电话语音0.30.33.43.48 812129696宽带语音宽带语音0.050.057 716161414224224调频广播调频广播0.02 0.02 151532321616512512CDCD光盘光盘0.01 0.01 202044.144.11616705.6705.6DAB/DATDAB/DAT0.01 0.01 2020484816167687682024/4/8 周一34类型类型格式格式分

12、辨率分辨率帧频帧频HZHZ比特比特/像素像素比特率比特率Mb/sMb/s电视电话电视电话QCIFQCIF17617614414429.9729.9712129.19.1会议电视会议电视CIFCIF35235228828829.9729.97121236.436.4常规电视常规电视ITU-R601ITU-R60172072057657625251616165.9165.9HDTVHDTVITU-R709ITU-R709192019201152115225251616884.7884.72024/4/8 周一35图像压缩编码v图像压缩编码的必要性图像的数据量巨大，一般必须进行压缩编码v图像压缩编码

13、的依据图像信号在结构和统计上存在大量的冗余度v结构冗余度：空间和时间上的强相关性v统计冗余度：被编码信号概率分布的不均匀基于人眼的视觉特性v人眼对某些失真较不敏感，察觉不到图像的某些细微变化v图像压缩编码的评价压缩效率：压缩前后编码速率的比值压缩质量：恢复图像的质量编码算法的复杂度编解码延时v图像编码采取的主要技术措施利用离散余弦变换，去除各象素点在空间域的相关性通过帧间预测差分编码，去除活动图像的时间相关性采用熵编码技术，使编码域信源的概率模型相匹配利用人眼的视觉特性，进行自适应量化编码通过缓冲存储器实现变长码输入与定长码输出之间的匹配,2024/4/8 周一36图像压缩编码方法2024/4

14、/8 周一37图像压缩编码举例vHuffman编码基本思想v对出现概率较大的信源符号编以较短的代码，对出现概率较小的信源符号编以较长的代码vJPEG、H.261、MPEG-1、MPEG-2中对量化后的DCT系数进行Huffman编码编码算法 1.初始化，根据符号概率的大小按由大到小顺序对符号进行排序；2.把概率最小的两个符号组成一个节点；3.重复步骤2，形成一棵“树”；4.从根节点开始到相应于每个符号的“树叶”，从上到下标上“0”(上枝)或者“1”(下枝)，至于哪个为“1”哪个为“0”则无关紧要，最后的结果仅仅是分配的代码不同，而代码的平均长度是相同的。5.从根节点开始顺着树枝到每个叶子分别写

15、出每个符号的代码2024/4/8 周一38编码特点v霍夫曼码的码长虽然是可变的，但却不需要另外附加同步代码。如果事先编写出一本解释各种代码意义的“词典”，即码簿，那么就可以根据码簿一个码一个码地依次进行译码。v霍夫曼码没有错误保护功能，如果码串中有错误，哪怕是1位出现错误，会出现错误传播(error propagation)。v霍夫曼码是可变长度码，因此很难随意查找或调用压缩文件中间的内容，然后再译码，这就需要在存储代码之前加以考虑2024/4/8 周一39v预测变换编码利用图像信号的空间和时间冗余特性，用已知的相邻象素或图像块预测当前象素值，再对预测误差进行量化、编码和传输帧内预测编码，在一

16、帧图像内进行预测，消除图像在空间的相关性帧间预测编码，在多幅图像之间进行预测，消除图像在时间域上的相关性关键在于预测算法的选取v游程长度编码编码对象为信源符号在信息流中连续出现的长度，根据其出现概率的不同编成不同长度的码字常用于文件传真系统中2024/4/8 周一40Standard Standard OrganizationOrganizationVideo Coding Video Coding StandardStandardTypical Range of Typical Range of Bit RatesBit RatesTypical Typical ApplicationsAp

17、plicationsITU-TITU-TH.261H.261P*64 k bits/sP*64 k bits/sISDN Video ISDN Video ConferencingConferencingITU-TITU-TH.263,H.263H.263,H.263+,H.263H.263+Wide rangeWide rangePSTNPSTN Video Phone Video PhoneITU-TITU-TH.26LH.26L64kbits/s64kbits/sWide rangeWide rangeISOISO11172-211172-2MPEG-1 VideoMPEG-1 Vide

18、o1.5 M bits/s1.5 M bits/sCD-ROMCD-ROMISOISO13818-213818-2MPEG-2 VideoMPEG-2 Video4-80 M bits/s4-80 M bits/sSDTV,HDTVSDTV,HDTVISOISO14496-214496-2MPEG-4 VideoMPEG-4 VideoWide rangeWide rangeWide rangeWide rangeJVT (ITU-T,ISO)JVT (ITU-T,ISO)H.264H.264Wide rangeWide rangeWide rangeWide range中国标准中国标准AVS

19、AVSWide rangeWide rangeWide rangeWide range2024/4/8 周一41语音压缩编码v语音编码的基本问题给定编码速率的条件下，如何获得更高质量的重建语音给定重建语音质量的条件下，如何降低编码速率v基本依据利用语音信号本身的冗余度以及人耳的听觉特性v主要指标语音编码质量编码速率编码算法的复杂度编解码的延时2024/4/8 周一42语音压缩编码算法语音编码器波形编码器参量编码器频域时域非差分子带编码自适应变换域编码差分PCMDPCMM连续可变斜率MADPCMAPC线性预测编码信道声码器共振峰声码器倒频谱声码器语音激励声码器多脉冲激励LPC码本激励LPC矢量和

20、激励LPC混合编码器2024/4/8 周一43v波形编码力图使重建语音信号保持原始语音波形语音信号作为一般信号进行处理适应能力强，重建语音质量好编码速率较高，一般应用于6416K速率v参量编码（声码器）通过对语音信号特征参数的提取及编码，力图使语音信号有尽可能高的可懂度，保持语音的语意重建语音信号的波形与原始语音信号的波形可能有相当大的差别往往利用某种语音生成的模型，在幅度谱上逼近原始语音合成语音的自然度不好，抗背景噪声的能力比较差v混合编码结合声码器的特点，同时又利用波形编码器的特点提取语音参数，优化激励信号使其达到与原始语音的波形匹配v中速率语音编码4.816K，应用于蜂窝移动通信、卫星通

21、信、军用通信v低速率语音编码100bit/s-4.8Kbit/s2024/4/8 周一44语音编码的标准vG.711 PCM(64k bps)vG.721 ADPCM(32k bps)vG.722 7kHz带宽64k bps速率内的音频编码vG.723.1 6.3k/5.6k 双速率多媒体语音编码vG.728 16k bps 语音编码 LD-CELPvG.729 8k bps多媒体语音编码2024/4/8 周一45线形预测编码LPC的原理v原理：模型化人类语音信号产生的机制，提取模型参数，并且只传输模型的参数。v语音信号的产生模型：语音的产生，声带和声道不同语音产生的原因：声音激励源和声道不同

22、声音分类：浊音和清音v发声过程口腔和鼻腔形成时变滤波器2024/4/8 周一46LPC语音编码语音信号相邻样点之间又很强的相关性，可以用过去的样点的线性组合来预测未来的样点预测的误差因此上式可看成信号e(n)激励一个全极点滤波器得到语音信号与人的发声过程吻合，采用清音及浊音二元激励模型即可合成语音使误差均方最小，可求得一组预测系数ak，传送：预测系数，基音周期和增益，清浊音判决2024/4/8 周一47LPC声码器2024/4/8 周一48码激励线性预测（CELP）声码器v基本原理与LPC类似，有激励信号以及声道滤波器激励信号不再是二元激励，而是两种码本：长时基音预测自适应码本和随机码本自适

23、应码本描述语音信号的周期性，随机码本则用来逼近语音信号经过短时和长时预测后的线性预测余量信号从自适应码本和随机码本中搜索出最佳激励矢量乘以各自的增益后相加，即得到激励，送入合成滤波器得到合成语音合成语音与原始语音的误差通过感觉加权滤波器可得到感觉加权误差，按均方误差最小的原则搜索最佳的码字矢量2024/4/8 周一49CELP编码器框图CELP的难点v码本中的矢量生成v码矢量的快速搜索2024/4/8 周一50子带编码v工作原理用一组带通滤波器将输入信号分成若干个在不同频率段上的子带信号，然后将这些子带信号经过频率搬移变换成基带信号，再对它们在奈氏频率上分别取样。取样后的信号经过量化和编码，合并成一个总的码流传送给接收端。在接收端，首先把码流分成与原来的各个子带信号相对应的子带码流，然后解码、将频谱搬移至原来的位置，最后经带通滤波、相加得到重建的信号v优点可以利用人耳（或人眼）对不同频率信号的感知灵敏度不同的特性，在人的听觉（或视觉）不敏感的频段采用较粗糙的量化，从而达到数据压缩的目的；各个子带的量化噪声都束缚在本子带内，这就可以避免能量较小的频带内的信号被其它频段中的量化噪声所淹没；通过合理分配比特，可以获得更好的主观质量2024/4/8 周一51

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？