1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,绪论语音信号处理基础知识,优选绪
2、论语音信号处理基础知识,该门课程的教学要求:,大纲:选修课 考查(考试方式),全书,12,章(,32,学时,讲,10,章),第,1,章 绪论,第,2,章 语音信号处理基础知识,第,3,章 语音信号分析,第,4,章 矢量量化技术,第,5,章 隐马尔可夫模型,第,7,章 语音编码,第,8,章 语音合成,第,9,章 语音识别,第,10,章 说话人识别与语种辨识,第,14,章 语音增强,1.,语音信号处理技术的应用,2.,语音信号处理技术的发展概况,第,1,章 绪论,1.1,语音信号处理技术的应用,语音是人类最重要、最有效、最常用和最方便的交换信息的方式;让计算机能听懂人类的语言,是人类自计算机诞生以
3、来梦寐以求的想法;语音信号处理技术始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展。,下面介绍,语音信号处理技术的广泛应用。,(,1,)语音编码(,语音压缩编码、语音压缩,),必要性:数字化语音信号的存储要占用一定的空间,传输要占用一定的带宽。为了节省空间和带宽需要对语音信号进行压缩编码。,如果只按照传统的模数转换技术对语音信号进行数字化,那就必须传输或存储大量的数据。假定采样速率为,8kHz,,对每个样本进行,16,位,A/D,转换,那么每秒的语音数据量将达到,128kbps,。这么高的位率通常是不允许的,必须对其进行压缩。,发展现状:自从,30,年代末提出脉冲编码调制,(P
4、CM),原理以及声码器的概念后,语音编码一直沿着两个方向发展,:,语音信号波形编码与声码化编码,或者是非参数化编码与参数化编码。参数编码有时也称为模型编码。,1,)波形编码,语音信号波形编码的特点是,:,力图使重建的语音波形保持原始语音信号的波形形状。这类编码器通常将语音信号当作一般的波形信号来处理,具有适应能力强、话音质量好等优点,但是所需要的编码速率高。如:,PCM,、增量调制、自适应增量调制等。,2,)参数编码,参数编码通过对语音信号特征参数的提取及编码,力图使重建的语音信号具有尽可能高的可懂度,即保持原语音的语意,但是重建信号的波形同原语音信号的波形相比可能会有相当大的差别。参数编码的
5、主要问题是,:,合成语音质量低,自然度较差,有时甚至连连熟人也不一定能听出讲话人是谁。另外,这类编码器对讲话的环境噪声比较敏感,需要安静的讲话环境才能给出较高的可懂度。如:线性预测声码器等。,3,)混合编码,混合编码克服了原有波形编码与参数编码的弱点,结合了它们各自的长处,在,416kbps,速率上能够得到质量比较好的合成语音,在本质上具有波形编码的优点。,如:,多脉冲激励线性预测编码、规则脉冲激励线性预测编码、码本激励线性预测编码等。,应用:带宽受限信道的数字话音传输(蜂窝移动通信、卫星通信等)、可视 、语音的数字存储、呼叫服务(数字录音 、语音信箱等);,方向:低码率高质量的音频编码技术和
6、算法。语音压缩通常根据实际应用情况,进行三方面的均衡,即位率、质量和清晰度、编解码算法的复杂度。例如,有的数字语音录放系统对编码器实时性要求不高,但希望有较高的压缩效率,以降低所需存储器的容量;对于解码器,则要求算法尽量简单、成本低,并能够实时或基本实时解码;数字通信系统则要求能够实时编解码。,(,2,)语音识别,作用:将语音转换成等价的书面信息,即让计算机听懂人说话。,语音识别是建立计算机听觉系统的基础,它使得任何计算机之间利用自然语言进行通信成为可能。,语音识别的一般过程:,在训练阶段,用户将词汇表中的每个词依次说一遍,语音分析单元对输入语音进行分析,并将其特征矢量序列作为模板存入模板库。
7、在识别阶段,将对输入语音分析得到的特征序列与模板库中的每一个模板相匹配比较,将相似度最高者作为识别结果输出。,预处理包括反混叠滤波、数模转换、自动增益控制、噪声消除、去除声门激励及口唇辐射影响,以及端点检测和自动分段。其中,端点检测和自动分段决定于系统选择的识别单元的大小。基元可以是音素、音节字、或词。基元选得小,存储的模板量可以减少,但对分割技术要求会提高,并会影响识别率。,提取各种声学参数,包括时域参数、频域参数、倒谱域参数和超音段信息。,时域参数:短时平均能量、短时平均过零率、和短时自相关函数。,频域参数:滤波器组平均谱、线谱、共振峰信息共振峰频率、带宽、幅值、和线性预测系数。,倒谱域
8、参数:倒谱系数。,超音段信息:音长、音调、声调,用统计模型通常是隐马尔可夫模型,由训练样本得到各类的模型参数。,参考模板就是由训练或聚类的方法得到的语音库。,未知的语音样本要通过与语音库中的各个模板进行比较才能得到识别。,应用前景:,A、声控应用,计算机识别语音内容,并实施相应的动作。,典型系统:声控 转换、声控语音拨号、声控智能玩,具、信息网络查询、家庭服务等;,B、听写系统,以口授方式将文字输入计算机;,C、自动口语翻译,将一种语言翻译成另一种语言,如中科,院开展的CSTAR计划;,D、人机交互;,E、移动计算设备语音输入;,F、说话人识别,安全加密、法庭取证、信息 查,询、公安机关破案等
9、3,)说话人识别,根据语音辨别说话人。,说话人识别分为训练阶段和识别阶段。这两个阶段都必须根据说话人的特征建立模型进行识别。,根据判决模式不同可以将说话人识别分为说话人辨识和说话人确认两类。根据对训练和测试语音内容的要求不同,还可以将说话人识别分为固定文本的说话人识别和任意文本的说话人识别。,说话人识别的主要方法:,基于模板的方法:,DTW,、矢量量化,基于随机模板的方法:混合高斯模型、隐马尔科夫模型,基于人工神经网络的方法,基于支持向量机的方法,应用:广泛应用于人机接口、保安、军事、司法等方面。(保密设施的门禁系统、个人账户的身份验证、司法调查中的声音认证等),说话人识别和语音识别比
10、较,同:都是语音信号处理技术同计算机技术相结合的产物,;,都是应用机器设备,(,主体是计算机,),来模仿人对语音的感知和处理能力,;,都是基本的模式识别问题,;,都可以分为训练与测试两个阶段,训练时提取出某些语音特征,建立相应的模型,测试时提取出相同的语音特征,再根据一定的相似性准则作出判断,;,两者有时采用相同的语音特征。,异,:(l),对于说话人识别,语音信号在特征空间中是按照说话人来划分的,而语音识别是按照单词或句子划分的。,(2),说话人识别是想要挖掘出包含在语音信号中的有关说话人的个性因素,力图强调不同人之间的差别,;,而语音识别则是想要得到语音信号的语义内容,而忽略掉不同说话人的个
11、性因素。两者差异体现在语音特征和建模方法的选择上。,(,4,)语音合成,目的:让计算机说话。,语音合成是语言合成中最基本的部分,它相当于“人工嘴巴”。,最简单的语音合成是语音相应系统:在计算机内建立一个语音库,将可能用到的单字、词组或一些句子的声音信号编码后存入计算机,当键入所要的字、词组或句子代码时,就能调出对应的数码信号,并转换成声音。,语音合成器:从理论上讲,它可完全模仿人类发声器官动作和发声过程,实时地产生所需的语音。但在事实上,由于很难找出定量描述发声器官动作的精确数字模型和实际语音产生规律,因此实现起来还有一定困难。,语音合成技术经历了一个逐步发展的过程,从参数合成到拼接合成再到两
12、者的逐步结合,其不断发展主要是人们认知水平以及要求的不断提高的结果。,目前,常用的语音合成技术主要有,:,共振峰合成技术、,LPC,合成技术、,PSOLA,拼接合成技术和,LMA,声道模型技术。,各种合成技术各有自己的优缺点,人们在应用的过程中往往将多种技术有机的结合在一起,或者将一种技术的优点运用到另一种技术上,以克服另一种技术的不足。,应用:公共交通自动报站,各种场合的自动报,时、自动告警等,文本校对中的语音提示,查询服务;,应用新领域:与Internet结合,有声EMAIL,网,上信息的有声获取、语音聊天等;与机器翻译技术结合的语音翻译;与图象、视频技术结合的视觉(visual spee
13、ch)语音。,研究方向:高质量、高清晰度自然语音合成,以及表达人类的情感语音。,(5)语音增强,为了从带噪信号中获得尽可能纯净的语音信号,减少噪音的干扰,就需要进行语音增强。,目标:对收听人而一言主要是减少疲劳感,改善语音质量,提高语音可懂度;对语音处理系统(识别器、声码器、)而言是提高系统的识别率和抗干扰能力。,语音增强在许多方面有着广泛的应用,例如:,.在国家和社会安全方面,侦听信号常常含有较大的噪声,语音增强有助于提高侦听系统的效果,可以帮助侦察破案或获取情报。,.飞机驾驶人员与地面指挥的语音通讯常常因飞机螺旋桨、发动机等强噪声而受到干扰,需要进行语音增强以保证语音信息的可靠传达。,语音
14、增强的主要方法:,1,)噪声对消法,显而易见,如果能直接从带噪语音中,在时域中或者在频域中,将噪声分量减去,则能有效增强带噪语音。噪声对消法就是以此作为出发点。其最大特点是需要采集背景噪声作为参考信号,参考信号准确与否直接决定着噪声对消法的性能。在采集背景噪声时,往往采用自适应滤波技术,以便使参考信号尽,可能接近带噪语音中的噪声分量。,2,)自适应梳状滤波,由于语音中的浊音具有明显的周期性,这种周期性反映到频域中则为一系列分别对应基频,(,基音,),及其谐波的一个个峰值分量,这些频率分量占据了语音的大部分能量,我们自然可以利用这种周期性来进行语音增强。这时可采用自适应梳状滤波器来提取基音及其谐
15、波分量,抑制其他周期性噪声和非周期的宽,带噪声。由于语音是时变的,语音的基音周期也是不断变化的,能否准确地估计出基音周期以及能否及时跟踪基音变化,是这种基于谐波增强法的关键。,可设定其平均值为0,其自相关函数是一个单位冲激函数。,混合编码克服了原有波形编码与参数编码的弱点,结合了它们各自的长处,在416kbps速率上能够得到质量比较好的合成语音,在本质上具有波形编码的优点。,参数编码有时也称为模型编码。,于是,可以从中截取一小段进行频谱分析。,50年代后,语音信号处理得到新的进展。,显而易见,如果能直接从带噪语音中,在时域中或者在频域中,将噪声分量减去,则能有效增强带噪语音。,超音段信息:音长
16、音调、声调,截取一段进行付氏变换,求其短时谱。,如:PCM、增量调制、自适应增量调制等。,未知的语音样本要通过与语音库中的各个模板进行比较才能得到识别。,(12)数字语音安全性、完整性研究(新发展方向),目标:对收听人而一言主要是减少疲劳感,改善语音质量,提高语音可懂度;对语音处理系统(识别器、声码器、)而言是提高系统的识别率和抗干扰能力。,第10章 说话人识别与语种辨识,基于语音生成模型可以得到一系列语音增强方法,比如时变参数维纳滤,浊音的声带振动基本频率称为基音频率,一般用F0表示。,3,),幅度谱相减法,对带噪语音信号进行傅立叶变换,在频域中从带噪语音的幅度谱上减去噪声的幅度谱来作为语
17、音信号的幅度谱。利用人耳对语音相位的不敏感性,语音相位谱则近似用带噪语音的相位谱代替。,4,),功率谱相减法,这种方法是从带噪语音功率谱中减去噪声的功率谱,从而得到语音信号的功率谱,进而决定语音信号各频谱分量增益,最终得到语音信号的估计。,5,),维纳滤波法,维纳滤波法是为得到语音信号的时域波形,在最小均方误差准则下得到的最优估计器。实际应用中,多采用非因果维纳滤波器的频域实现形式。,6,),语音参数模型法,语音的发声过程可以建模为一个线性时变滤波器。对不同类型的语音采用不同的激励源。例如对于浊音,激励源为周期与基音周期相同的脉冲串,;,而对于清音,激励源为高斯白噪声。在语音的生成模型中,应用
18、最广泛的是全极点模型。基于语音生成模型可以得到一系列语音增强方法,比如时变参数维纳滤,波及卡尔曼滤波方法。卡尔曼滤波就是基于语音生成模型的一种有效语音增强方法,它能有效消除有色噪声。,(6)基于语音的信息检索(新方向),动机:网络技术和数字图书馆技术;,方向:基于语音内容的信息检索,(7)基于语音识别的广播新闻的,自动文摘技术、自动誊写技术(新发展方向),(8)IP 技术(新发展方向),研究领域:研究网络环境下的语音识别,即对网络上以数据包形式传输的语音进行识别。,应用领域:电子商务、国防,移动计算,(,9,)语音训练与校正技术(新方向),应用:辅助教学、发音校正。,(,10,)语种识别(新发
19、展方向),通过分析一个语音片段来判别其所属语言的种类,属语音识别范畴。,(,11,)基于语音的情感处理研究(新发展方向),(,12,)数字语音安全性、完整性研究(新发展方向),(,13,)音频作品安全性、完整性研究(新发展方向),1.2.,语音信号处理技术的发展概况,1.,语音信号处理的发展标志是在,1940,年产生的通道声码器技术,打破了以前的“波形原则”,提出了一种全新的语音通信技术,即提取参数加以传输,在收端重新合成语音。其后,产生“语音参数模型”的思想。,2.40,年代后期,研制成功了“语谱仪”,为语音信号分析提高了有力工具。,3.50,年代后,语音信号处理得到新的进展。主要标志是贝尔
20、实验室英文数字语音识别装置的研究成功。其后随着数字计算机和数字信号处理技术(,FFT,)的突破性发展,产生了第一台孤立词语音识别器、有限连续语音识别器。,4.70,年代初,随着倒谱分析技术和线性预测技术的成功应用,微电子学、微处理机芯片和专用信号处理芯片的不断问世,进一步推动了语音信号处理技术的发展。,5.80,年代初,矢量量化,VQ,应用于语音信号处理;隐式马尔可夫模型,HMM,是,80,年代语音信号处理技术的重大发展。,6,近年来,人工神经网络研究取得了迅速的发展,语音识别是神经网络的一个重要应用领域,第,2,章 语音信号处理的基础知识,语音的产生过程,语音信号的特性分析,语音信号生成的数
21、学模型,2.1,语音的产生过程,什么是语音?,语音的产生过程,1.,什么是语音,语音是带有语言信息的声音(声波)。,人们讲话时发出的话语叫语音,它是一种声音,具有称为声学特征的物理特性。,语音(,Speech,)是声音(,Acoustic,)和语言(,Language,)的组合体。可以这样定义语音:语音是由一连串的音组成语言的声音。,经过声电转换得到电信号;经过声光转换得到光信号。,2.,语音的产生过程,语音的产生依赖于人类的发声器官。发声器官主要由喉、声道和嘴构成。,人的说话过程可以分为五个阶段:(,1,)想说阶段(,2,)说出阶段(,3,)传送阶段(,4,)理解阶段(,5,)接收阶段,2.
22、2,语音信号的特性分析,语音信号的声学特性,语音信号的时域波形,语音信号的频谱特性,语音信号的统计特性,语音信号的声学特性,语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。,音色也叫音质,是一种声音区别于另一种声音的基本特征。,音调是指声音的高低,它取决于声波的频率。,声音的强弱叫音强,它由声波的振动幅度决定。,声音的长短叫音长,它取决于发音时间的长短。,说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(,Syllable,)。一个音节可以由一个音素构成,也可以由几个音素构成。,音素是语音发音的最小单位。任何语言都有语音的元音(,Vowel,)和辅音(
23、Consonant,)两种音素。,元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过产生的音素。,构成一个音节的主干,长度和能量看,元音在音节中都占主要部分。,辅音:呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素。,只出现在音节的前端、后端或前后两端,发辅音时由声带是否振动引起浊音和清音的区别:,声带振动的是浊音,声带不振动的是清音,基音频率,当发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期称为基音周期,其倒数称为基音频率。,浊音的声带振动基本频率称为基音频率
24、一般用,F,0,表示。,无论一个音节或是一段连续语音,各个音节的元音段的,F,0,都是随时间变化的,该变化产生了声调,其变化轨迹称为声调轨迹。,基音频率与个人声带的长短、厚薄、韧性、劲度和发音习惯等有关,在很大程度上反映了个人的特征。一般来说,男性说话者的基音频率大致分布在,50-200Hz,,女性和小孩的基音频率在,200-450Hz,之间。,共振峰,共振峰是一组谐振频率:声道可以看成是一根具有非均匀截面的声管,在发音时起共鸣器的作用,当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率(简称共振峰)。,元音的一个重要声学特性是共振峰(,Formant,)。共振峰参数是区别
25、不同元音的重要参数,它一般包括共振峰频率(,Formant Frequency,)的位置和频带宽度(,Formant Bandwidth,)。,元音的共振峰与发音机制(舌位高低、前后;舌尖的状态等)有关。,语音信号的时域波形和频谱特性,在时间域里,语音信号可以直接用它的时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性。,观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。,下图是汉语拼音“,sou ke”,的时间波形。表示这段语音波形时采用的采样频率是,8kHz,,量化精度是,16bit,。,图上标明了时间及各个音节的起始位置。由于在时域波形
26、里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。,从上图可以看出,清辅音,sk,和元音,ou e,这两类音的时间波形有很大区别。例如,从,A,点开始的音节,s,,以及从,C,点开始的,k,都是清辅音,它们的波形类似于白噪声,振幅很小,没有明显的周期性;而从,B,点开始的元音,ou,以及从,D,点开始的,e,都具有明显的周期性,且振幅较大。它们的周期对应的就是声带振动的频率,即基音频率,它是声门脉冲的间隔。如果考察其中一小段元音语音波形,从它的频谱特性大致可以看出它们的共振峰特性。,语音信号具有很强的时变特性,有些波形具有很强的周期性,有些波形具有很强的噪声特性,且周期性语
27、音和噪声性语音的特征也在不断变化之中。但在较短的时间内,语音信号的特征可以认为基本不变,所以,语音信号属于短时平稳信号,一般认为在,10,30ms,内语音信号特性基本上是不变的,或者变化很缓慢。,截取一段进行付氏变换,求其短时谱。,下面分别看一下元音和辅音的短时频谱。,于是,可以从中截取一小段进行频谱分析,。,下图给出,“,sou,”,中音素,“,ou,”,的傅里叶变换,:,频率,/kHz,幅度,/dB,语音信号的语谱图,短时谱只能反映语音信号的静态频率特性,不能反映语音信号的动态频率特性。因此,人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形称为语谱图。,语谱图是一种三维
28、频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,图像的黑白度对应信号的能量。,声道的谐振频率在图上表现为黑带,浊音部分则以出现条纹图形为特征。,记录这种谱图的仪器就是语谱仪。,(3)混合型声道模型,语音信号处理技术始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展。,第2章 语音信号处理基础知识,这两个阶段都必须根据说话人的特征建立模型进行识别。,两者差异体现在语音特征和建模方法的选择上。,也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。,语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。,基于模板的方法:DTW、矢量量化,大纲:选修
29、课 考查(考试方式),基音频率与个人声带的长短、厚薄、韧性、劲度和发音习惯等有关,在很大程度上反映了个人的特征。,语音是带有语言信息的声音(声波)。,语音信号处理技术的应用,语音压缩通常根据实际应用情况,进行三方面的均衡,即位率、质量和清晰度、编解码算法的复杂度。,语音信号处理技术的应用,与机器翻译技术结合的语音翻译;,语音信号的统计特性,语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量如均值和自相关函数来描述。,表示语音信号的统计特性的概率密度的估算方法是根据长时间范围内一段语音信号的大量取样数据的幅度绝对值计算出其幅度直方图,然后,根据统计的振幅直方图,寻找近似的概率密度表达式
30、通过对语音信号的统计特性的研究表明,语音信号振幅分布的概率密度有两种逼近方法,,一种是修正伽玛(,Gamma,)分布概率密度函数,另一种是拉普拉斯(,Laplace,)分布概率密度函数,对于长期统计来说,用拉普拉斯分布描述语音信号的统计特性不及用伽玛分布描述精确,但其函数式却简单一些。,也可以用高斯分布(,Gaussian,)来近似。,这三个分布函数中,伽玛函数逼近的效果最好,其次是拉普拉斯函数,而高斯分布逼近效果最差。,2.3,语音信号生成的数学模型,语音信号是一个非平稳的随机过程,但随时间的变化很缓慢,可做一些合理的假设,将语音信号分成短段处理,在这些短段中可视为平稳随机过程,采用线性
31、时不变模型。,可将语音生成系统分成三个部分,在声门(声带)以下,称为声门子系统,负责产生激励振动,是激励系统;从声门到嘴唇的呼气通道是声道,是声道系统;语音从嘴唇辐射出去,嘴唇以外是辐射系统。,下面分别介绍激励模型、声道模型、辐射模型,再介绍语音信号产生的数学模型。,激励模型,激励模型一般分成浊音激励和清音激励两种。,浊音时,激励信号由一个周期脉冲发生器产生,产生的序列是一个频率等于基音频率的冲激序列。,清音时,激励信号由一个随机噪声发生器产生。可设定其平均值为,0,,其自相关函数是一个单位冲激函数。,发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲,
32、它的数学表达式如下:,式中,,N1,为斜三角波上升部分的时间,,N2,为其下降部分的时间。单个斜三角波波形的频谱的图形如图,2-18,所示。由图可见,它是一个低通滤波器。它的变换的全极模型的形式是:,这里,,c,是一个常数。,显然,上式表示斜三角波形可描述为一个二极点的模型。因此,斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果。而该单位脉冲串及幅值因子则可表示成下面的,z,变换形式:,所以,整个浊音激励模型可表示为:,也就是说,浊音激励波是一个以基音周期为周期的斜三角脉冲串。,调节浊音信号的幅度,声道模型,关于声道部分的数学模型,有多种观点,目前最常用的有两种建模方法。一是把
33、声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。,共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。,基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。,(,1,)级联型声道模型,这时认为声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具
34、有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联:,N=10,,,M=5,时的声道模型如图所示。,(,2,)并联型声道模型,对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下:,通常,,NR,,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:,这就是并联型的共振峰模型。如图,2-21,所示(,M=5,)。,目标:对收听人而一言主要是减少疲劳感,改善语音质量,提高语音可懂度;对语音处理系统(识别器、声码器、)而言是提高系统的识别率和抗
35、干扰能力。,应用:带宽受限信道的数字话音传输(蜂窝移动通信、卫星通信等)、可视 、语音的数字存储、呼叫服务(数字录音 、语音信箱等);,语音信号波形编码的特点是:力图使重建的语音波形保持原始语音信号的波形形状。,由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。,但在较短的时间内,语音信号的特征可以认为基本不变,所以,语音信号属于短时平稳信号,一般认为在1030ms内语音信号特性基本上是不变的,或者变化很缓慢。,浊音时,激励信号由一个周期脉冲发生器产生,产生的序列是一个频率等于基音频率的冲激序列。,50年代后,语音信号处理得到新的进展。,
36、隐式马尔可夫模型HMM是80年代语音信号处理技术的重大发展。,共振峰就是这个腔体的谐振频率。,但对于鼻音、塞音、擦音以及塞擦音等都可以适用。,C、自动口语翻译,将一种语言翻译成另一种语言,如中科,式中,N1为斜三角波上升部分的时间,N2为其下降部分的时间。,第2章 语音信号处理基础知识,正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。,另一种是拉普拉斯(Laplace)分布概率密度函数,(,3,)混合型声道模型,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入
37、零点,使之成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。,辐射模型,从声道模型输出的是速度波 ,而语音信号是声压波 ,二者之倒比称为辐射阻抗 。它表征口唇的辐射效应,也包括圆形的头部的绕射效应等。当然,从理论上推导这个阻抗是有困难的。但是如果认为口唇张开的面积远小于头部的表面积,则可近似地看成平板开槽辐射的情况。此时,可推导出辐射阻抗的公式如下:,式中,这里,是口唇张开时的开口半径,是声波传播速度。由辐射引起的能量损耗正比于辐射阻抗的实部,所以辐射模型是一阶类高通滤波器。,语音信号的数学模型,综上所述,完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。如图所示:,它的传输函数可以表示为:,






