专题讲座：语音识别与声纹识别.ppt

资源描述

1、语音识别与声纹识别语音识别与声纹识别1大家好Contents5 语音数据挖掘语音数据挖掘4 语音合成语音合成3 声纹识别声纹识别2 语音识别语音识别1 语音信号处理基础语音信号处理基础语音识别语音识别声纹处理声纹处理2大家好1 语音信号处理基础语音信号处理基础内容提示1.1 语音信号的产生1.2 语音信号的感知（了解）1.3 语音信号的线性产生模型1.4 语音信号的非线性产生模型（了解）语音语音信号信号处理处理基础基础3大家好1 语音信号处理基础语音信号的基本概念语音信号的基本概念l 语音语音：人们讲话时发出的话语叫语音。是一种人：人们讲话时发出的话语叫语音。是一种人们进行信息交流的声音，是组

2、成语言的声音们进行信息交流的声音，是组成语言的声音/带有带有语言信息的声音。语言信息的声音。语音语音(Speech)=(Speech)=声音声音(Acoustic)+(Acoustic)+语言语言(Language)(Language)语音是由一连串的音素组成语言的声音语音是由一连串的音素组成语言的声音。4大家好对语音的研究对语音的研究对语音的研究包括两个方面对语音的研究包括两个方面l 1)语音中各个音的排列由一些规则所控制，对这语音中各个音的排列由一些规则所控制，对这些规则及其含义的研究称为些规则及其含义的研究称为语言学语言学(linguistics)。语言学语言学是语音信号处理的基础。例如

3、：可以利是语音信号处理的基础。例如：可以利用句法和语义信息减少语音识别中搜索匹配范围，用句法和语义信息减少语音识别中搜索匹配范围，提高正确识别率。提高正确识别率。l2)语音中各个音的物理特性和分类的研究称为语音中各个音的物理特性和分类的研究称为语音语音学学(phonetics)(phonetics)。它考虑的是语音产生、语音感知。它考虑的是语音产生、语音感知等过程，以及各个音的特征和分类。等过程，以及各个音的特征和分类。1 语音信号处理基础5大家好对语音的研究对语音的研究l语音学基本内容包括：语音学基本内容包括：发音语音学发音语音学确定发音机理确定发音机理声学语音学声学语音学信号分析理论

4、解释语音现象信号分析理论解释语音现象听觉语音学听觉语音学认识感知的过程认识感知的过程l语音学和语音信号处理联系更加紧密。如：运语音学和语音信号处理联系更加紧密。如：运用现代信号处理技术建立发音的数学模型，确用现代信号处理技术建立发音的数学模型，确定发音方法；用声学和非平稳信号分析理论来定发音方法；用声学和非平稳信号分析理论来解释各种语音现象；语音信息的存储形式等。解释各种语音现象；语音信息的存储形式等。1 语音信号处理基础6大家好1.1 语音信号的产生1 语音信号处理基础n 人类的说话过程分五个阶段人类的说话过程分五个阶段想说想说说出说出传送传送接收接收理解理解语音交流是通过联结说

5、话人和听话人的一连串心理、语音交流是通过联结说话人和听话人的一连串心理、生理和物理的转换过程实现的。生理和物理的转换过程实现的。大脑中枢大脑中枢发音器官发音器官空气空气听觉器官听觉器官大脑中枢大脑中枢7大家好1.1语音信号的产生1 语音信号处理基础n语音的发音器官肺和气管：能量源咽喉：震动源，包括声带和声门声道：谐振腔，声门到嘴唇的呼吸通道，包括咽腔、口腔、鼻腔等其他发音器官：包括唇、齿、舌、面颊等，使谐振腔改变形状与箫、唢呐比较8大家好1.1语音信号的产生1 语音信号处理基础肺和气管肺是胸腔内的一团有弹性的海绵状物质，它可以储存空气。通过正常的呼吸系统空气可以进入肺部，说话时腹肌收缩使横

6、膈膜向上，挤出肺部的空气，形成气流。由肺部呼出的气流是语音产生的原动力。气管将肺部呼出的气流送到咽喉，它是肺部气流的通道。气管的上端是喉部。9大家好1.1语音信号的产生1 语音信号处理基础甲状软骨喉的生理结构声门声带环形软骨人的前方喉位于气管的上端，实际上是气管末端一圈软骨构成的一个框架：前方稍高处的软骨称为甲状软骨，前后方环成一圈的称为喉部环形软骨，喉中两片肌肉称为声带，声带之间的空隙为声门。当声带张开时，声门打开，空气可自由呼出，正常呼吸就处于这种情况；当声带闭合，声门关闭。声门和声带10大家好1.1语音信号的产生当说话时，声带在软骨的作用下相互靠近但不完全闭合，声门变成一条窄缝。当气

7、流通过气管经过咽喉时，收紧的声带由于气流的冲击而产生振动，不断地张开和闭合，使声门向上送出一连串喷流。声带靠拢Tp基音周期声带的开启和闭合称为振动。这一振动过程周而复始，形成了一串周期性脉冲气流送入声道。这个过程发出的音称为浊音。如汉语发音的a、i、u和o等。1 语音信号处理基础11大家好1.1语音信号的产生1 语音信号处理基础 F0=1/Tp，基音频率，由声带的质量来决定。F0的大小决定了声音的高低，称为音高。男性的F0大致分布在：60-200Hz 女性和儿童的F0大致分布在：200-450Hz基音频率（Fundamental Frequency）F0 声带的一个重要参数：12大家好1.1

8、语音信号的产生1 语音信号处理基础声道人在说话时，空气由肺部压入，由嘴唇呼出，声门由此开启和闭合，构成声带振动，然后通过声道（喉腔、咽腔和口腔）响应（引起共振特性）变成语音，气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射，期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体，放大某些频率，在频谱上形成相应位置的峰起，称为共振峰。讲话时，由于舌和唇的连续运动，使声道形状改变，随即改变谐振频率，使得发不同的音。声道的不同的形状，对应不同的谐振频率。声带振动频率输出气流的频率声道的谐振特性13大家好1.1语音信号的产生1 语音信号处理基础鼻端嘴唇17cm8.5cm13cm声道

9、的无损模型谐振频率的计算谐振频率发生在：Fn=（声道的横截面是均匀的，发元音e时，声道近似是均匀的。）L=17cm，声道的长度n=1,2,3 称为第一共振峰F1=500Hz、第二共振峰F2=1500Hz、第三共振峰F3=2500Hz，c=340m/s 声速2n-14Lcn表示谐振频率的序号 14大家好1.1语音信号的产生1 语音信号处理基础一种声道形状对应一套共振峰不同人的声道大小不同，共振峰不同同一人，发不同音，共振峰也不同声道的作用相当于一个滤波器，它放大（或增强）某些频率而衰减其他频率分量前三个共振峰的大致范围（Hz）15大家好1.1语音信号的产生1 语音信号处理基础鼻腔的作用在软腭的

10、帮助下，可使空气经过鼻腔排除人体外，由此产生的语音称为鼻音。如n、ng为鼻音韵母，m、n、l为鼻音声母。鼻腔是一个谐振腔，由于形状固定，故其共振峰频率是确定的。口腔和鼻腔口腔的作用使空气经过口腔排除人体外，由此产生的语音称为口音。口腔的形状不固定，故其共振峰频率也是不确定的。16大家好1.1语音信号的产生1 语音信号处理基础等效为激励源声道喇叭口等效为激励源声道喇叭口激励源：声带l声带振动频率基频(基音频率)l清音声带不振动l浊音声带振动声道：可变谐振腔l不同形状、不同声音l共振(谐振)频率17大家好1.1语音信号的产生1 语音信号处理基础n 发音的分类浊音（voiced sounds

11、）：声道打开，声带在先打开后关闭，气流经过使声带要发生张驰振动，变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。清音（unvoiced sounds）：声带不振动，而在在声道某处保持收缩，气流在声道里收缩后高速通过产生湍流，再经过主声道（咽、口腔）的调整最终形成清音。清音的激励源被等效为一种白噪声信号。爆破音（plosive sounds）：声道关闭之后产生压缩空气然后突然打开声道所发出的声音。18大家好1.1语音信号的产生1 语音信号处理基础19大家好1.1语音信号的产生1 语音信号处理基础语音是发声器官发出的一种声波，具有一定的音色、音调和音强和音长。音色:又称为音质，是一种声

12、音区别于另一种声音的基本特性。与声带的振动频率、发音器官的送气方式和声道的形状、尺寸密切相关。音调：声音的高低，取决于声波的频率。音强：声音的强弱，它由声波的振动幅度所决定音长：声音的长短，取决于发音持续时间的长短，n语音的基本声学特性20大家好1.1语音信号的产生1 语音信号处理基础n 语音信号的时域和频域表示语音信号的时域波形结论1：时间的连续函数、频率幅度随时间变化是随机的结论2：短时间内近似认为不变结论3：元音是准周期函数(基频)结论4：清音为随机起伏21大家好1.1语音信号的产生1 语音信号处理基础语音信号的频域波形F1=500Hz，F2=1000Hz，F3=1500HzTp=

13、250Hz22大家好1.1语音信号的产生1 语音信号处理基础基音周期23大家好1.1语音信号的产生1 语音信号处理基础语音信号的语谱图女声：“他去无锡市，我去黑龙江”的语谱图1）语谱图：表示语音信号随时间而变化的频谱特性，在每个时刻用其附近的短时段语音信号分析得到的一种频谱。2）语谱图的纵轴对应于频率，横轴对应于时间，图像的灰度对应于信号的能量。3）声道的谐振频率表示为黑带，浊音部分则以出现条纹图形为特征，这是因为此时的时域波形具有周期性，而在清音的时间间隔内比较致密4）“声纹”用于说话人识别24大家好1.1语音信号的产生1 语音信号处理基础load mtlbspecgram(mtlb,51

14、2,Fs,kaiser(500,5),475)title(Spectrogram)25大家好1.1语音信号的产生1 语音信号处理基础load specgram.matwavplay(a,Fs)specgram(a,512,Fs,kaiser(500,5),475)26大家好1.1语音信号的产生1 语音信号处理基础n 汉语中语音的分类音素：是发音的最小单位，分为元音和辅音。元音是构成音节的主干，从长度和能量来看，在音节中占主要位置；辅音只是出现在音节的前端或后端或前后两端，它们的时长和能量较小。音节：发音时，被明显感觉到的语音片段为音节。一个音节由一个音素或几个音素构成。单词的最小单位为音节，句

15、子的最小单位为单词。1）音素与音节27大家好1.1语音信号的产生1 语音信号处理基础音系简单，在汉语中一个字就是一个音节，由一般为23个音素组成，而且具有音素少、音节少。英语中一个单词由若干个音节组成，一般为23个，一个音节由若干个音素组成，一般为14个。清辅音多，在听感上有清亮、高扬和舒服、柔和的感觉。有鲜明的轻重音和儿化韵，所以字词分隔清楚，语言表达准确而丰富。2）汉语语音的特点28大家好1.1语音信号的产生1 语音信号处理基础在汉语中，由音素构成声母和韵母。声母：一个音节开始的辅音，声母完全由辅音充当，但辅音不等于声母，因为辅音还可以作为韵尾放在音节的末尾。(21个)b、p、m、f、d

16、、t、n、l、g、k、h、j、q、x、zh、ch、sh、z、c、s、r3）语音的拼音方法29大家好1.1语音信号的产生1 语音信号处理基础韵母：在音节中占主要部分，音节中除了头上的声母以外的部分，由单、双元音、元音带上辅音等几种不同的形式组成。所有元音都是浊音。a、o、e、i、u、单韵母（元音）ai、ei、ao、ou、ia、ie、iao、iou、ua、uo、uai、uei、e 复韵母an、en、ang、eng、ong、ian、in、iang、ing、iong、uan、uen、uang、ueng、an、n 鼻韵母30大家好1.1语音信号的产生1 语音信号处理基础韵母是由单、双元音、元音带上辅

17、音等几种不同的形式组成。不同的元音有不同的基音频率和共振峰模式，它们是区别不同韵母的重要参数。区别不同韵母的重要参数31大家好1.1语音信号的产生1 语音信号处理基础注意区别下述不同的概念浊音和清音：按声带振动的方式来划分。元音和辅音：按音素的发音特征来划分，与声道中活动部分和固定部分的接触点的位置密切相关。声母和韵母：按音节的结构进行划分。(元音一定是浊音。辅音包括浊音和清音。英语中：由元音和辅音（这些都是音素）构成音节，由几个音节构成一个词。汉语中：汉语中由元音和辅音构成声母和韵母，结合声调构成一个音节，一个音节就是一个字。32大家好1.1语音信号的产生1 语音信号处理基础声母、韵母和声

18、调是汉语语音的三要素。汉语语音的1个不同于其他语言的是它具有声调（音调）。声调是1个音节在念法上的高低升降的变化，汉语中有4个声调，即阴平（）、阳平（）、上声（）、和去声（）。4）汉语音节的一般结构33大家好1.1语音信号的产生1 语音信号处理基础声调的变化就是浊音基音周期的变化，为了将调值描写地具体一些，一般采用“五度标记法”，用一条竖线表示声音的高低，从下而上用1、2、3、4、5依次表示低、半低、中、半高、高。5 高4 半高3 中2 半低1 低阴平阳平上声去声34大家好1.1语音信号的产生1 语音信号处理基础单独发声的一个音节或是语音流中的任何一个音节都可能由7部分组成。无声段音节声母

19、鼻音段声母辅音段元音段送气段前过渡段后过渡段韵母35大家好1.2语音信号的感知（自学）1 语音信号处理基础研究人对声音的感知，对语音编码识别很重要，如MP3。听觉系统耳的结构听觉的形成耳蜗的作用听觉特性人耳的听阈及响度音调俺蔽效应同时掩蔽和异时掩蔽各种不同的掩蔽效果36大家好1.3语音信号的线性产生模型1 语音信号处理基础激励模型（肺部，气管，声带）声道模型（咽腔，口腔，喉腔，鼻腔）辐射模型（口唇，鼻孔）完整的语音信号的数学模型37大家好1.3语音信号的线性产生模型1 语音信号处理基础传输函数传输函数数学模型的特点：是一个终端模拟的近似模型，其内部结构与语音产生的物理过程并不一致，只

20、是在输出端等效。清/浊音开关Av冲激序列发生器声门波模型G(z)随机噪声发生器基音周期TPAN线性系统声道V(z)辐射模型R(z)激励模型38大家好1.3语音信号的线性产生模型1 语音信号处理基础激励模型用数学方法描述肺部的气流与声带共同作用产生的激励。浊音激励清音激励冲激序列发生器声门脉冲模型G(z)随机噪声发生器基音周期TPAN清/浊音开关AV39大家好1.3语音信号的线性产生模型1 语音信号处理基础发浊音时，声激励是一个准周期的单位脉冲串，Av为增益参数；为了使浊音的激励信号逼近声门振动气流的实际波形，需将冲激序列通过一个声门脉冲模型滤波器（实际上是一个斜三角波形）G(z)。最后形

21、成一个以基音周期为周期的斜三角型脉冲波。1）浊音激励Tp为冲激脉冲的周期，声门波模型产生单个声门脉冲40大家好1.3语音信号的线性产生模型1 语音信号处理基础单位脉冲串单位脉冲串及幅值的Z变换形式将其表示为Z变换，有：冲激序列：E(z)浊音激励模型：U(z)=AVG(z)E(z)斜三角型脉冲波N1为斜三角波上升部分的时间，N2为其下降部分的时间 41大家好1.3语音信号的线性产生模型1 语音信号处理基础2）清音激励清音激励模拟为随机噪声，实际中一般使用均值为0、方差为1的白噪声。42大家好1.3语音信号的线性产生模型1 语音信号处理基础将声激励分为两种情况，与实际不完全相符。例如爆将声激励

22、分为两种情况，与实际不完全相符。例如爆破音是气流在声门完全闭合处的下方建立起压力，然后除破音是气流在声门完全闭合处的下方建立起压力，然后除去这种障碍，使压力迅速释放，产生一种瞬时的激励。在去这种障碍，使压力迅速释放，产生一种瞬时的激励。在上面的声学模型中未考虑。上面的声学模型中未考虑。应将两种激励按一定比例进行叠加，更符合实际情况。应将两种激励按一定比例进行叠加，更符合实际情况。43大家好1.3语音信号的线性产生模型1 语音信号处理基础声道模型(共振峰模型)线性系统线性系统声道声道V(z)V(z)uG(n)ul(n)1)1)声音在声道的传播涉及到许多物理定律声音在声道的传播涉及到许多物理定律(

23、能量守恒、流能量守恒、流体力学体力学)，需简化。有不同的模型。，需简化。有不同的模型。2)2)语音信号是一个非平稳信号，激励和声道的谐振特性随语音信号是一个非平稳信号，激励和声道的谐振特性随时间变化。但在时间变化。但在202030ms30ms内语音信号是平稳的，即激励和声道内语音信号是平稳的，即激励和声道的特性几乎不变，因此认为在此时间段内系统是线性的。的特性几乎不变，因此认为在此时间段内系统是线性的。用数学方法描述声道的调音特性。包括声管模型和共振峰模型44大家好1.3语音信号的线性产生模型1 语音信号处理基础1）声管模型“短时”间声道是一个形状稳定的级联管道，声音在不同截面积间传输会有反射

24、。反射系数：km(Am+1-Am)/(Am+1+Am)Am,Am+1是第m、m+1段的截面积Km是声道的特性，确定Km，就确定了声道！A1 A2 A3.(a)立体图 (b)断面图 45大家好1.3语音信号的线性产生模型1 语音信号处理基础2）共振峰模型声道近似为谐振腔，共振峰就是这个腔体的谐振频率，从共振峰的角度出发描述声道的模型称为共振峰模型。一般共振峰的个数为3-5个。p、ak 决定了声道地特性(人的特征)，p越大越吻合。一般p=812(1)级（串）联型(元音)：声道是一组串连的二阶谐振器（一个谐振腔对应1个共振峰频率）。V1V2V3V4V5传输函数p为极点个数，G是增益参数，ak为模型

25、系数。46大家好1.3语音信号的线性产生模型1 语音信号处理基础传输函数是一个全极点的IIR滤波器，这些极点确定了声管的共振峰。若N取偶数，V(z)一般有N/2对共轭极点，rkexp(j2FkT)，k=1N/2。各个wk值分别与语音的共振峰相互对应。N的取值一般为812。利用Z变换的知识，把V(z)分解为多个二阶极点网络的级联：二阶谐振器的幅频特性 47大家好1.3语音信号的线性产生模型1 语音信号处理基础（2)并联型(大部分辅音)传输函数，零极点IIR滤波器V1V2V3V4V5用并联网络模拟声道。对于非一般的元音和大部分辅音，必须采用零极点模型级联简单，可用于一般元音，一般35级并联复杂，可

26、用于许多音，但ai难以求解48大家好1.3语音信号的线性产生模型1 语音信号处理基础（3）混合型（根据需要进行模型的切换）V1V2V3V4V5V1V2V3V4V5 将级联型和并联型结合起来的混合型也是比较完备的一种共振峰模型，该模型能够根据不同性质的语音进行切换。49大家好1.3语音信号的线性产生模型1 语音信号处理基础辐射模型线性系统口唇辐射R(z)ul(n)pl(n)Pl(z)=R(z)Ul(z)R(z)=(1-rz-1)声道的终端为口和唇。从声道输出的是速度波UL(n)，而语音信号是声压波，二者之倒比称为辐射阻抗ZL。它表征口和唇的辐射效应。研究表明，口唇端辐射在高频端较为显著，在低频

27、端时影响较小，所以辐射模型R(z)主要与嘴型有关，应是一阶类高通滤波器的形式。用数学方法描述口唇和鼻孔的辐射特性。50大家好1.3语音信号的线性产生模型1 语音信号处理基础完整的语音信号的数学模型Av冲激序列发生器声门脉冲模型G(z)随机噪声发生器基音周期TPAN线性系统声道V(z)辐射模型R(z)清/浊音开关传输函数传输函数51大家好1.3语音信号的线性产生模型1 语音信号处理基础在语音信号模型中，如果不考虑冲激脉冲串模型E(z)，则斜三角波模型是二阶低通，而辐射模型是一阶高通，所以实际信号分析中常采用“预加重技术”。即在对信号取样之后,插入一个一阶的高通滤波器，这样，只剩下声道部分，就

28、便于对声道参数进行分析了。在语音合成时再进行“去加重”处理，就可以恢复原来的语音。R(z)=(1-rz-1)52大家好1.3语音信号的线性产生模型1 语音信号处理基础数学模型的特点在这个模型中，TP、Av、AN、清/浊音开关的位置以及声道滤波器的参数都是随时间而变化，在10-30ms的时间间隔内是保持不变的。这种特性称为短时性。对于激励信号而言，大部分情况下，这一结论也是正确的，但有些音变化速度特别快，爆破音，取5ms比较更为恰当。53大家好1.3语音信号的线性产生模型1 语音信号处理基础语音特性分析实例声门脉冲序列声道对声门脉冲相应的输出 54大家好输出语音频谱虚线称为谱包络，其形状

29、是由H(f)和G(f)的包络乘积得到的。恢复这个谱包络是许多语音处理应用中的主要问题，因为正是谱包络携带了主要的发音信息。线性预测技术之所以非常重要，正是由于它所提供的谱包络分析方法是快速、准确，并且在理论上完全得到证明的方法。声道频率响应，最大值与共振峰相对应 1.3语音信号的线性产生模型1 语音信号处理基础理想的声门脉冲序列频谱 55大家好1.4语音信号的非线性产生模型（了解）1 语音信号处理基础调频-调幅模型的基本原理 Teager能量算子能量分离法调频-调幅模型的应用56大家好声音声音声音声音处处理理理理声音的三要素声音的三要素声音的三要素声音的三要素音音音音质质声音的三要素是音

30、声音的三要素是音声音的三要素是音声音的三要素是音调调、音色和音、音色和音、音色和音、音色和音强强 vv音音音音调调代表声音的高低，与代表声音的高低，与代表声音的高低，与代表声音的高低，与频频率有关。率有关。率有关。率有关。频频率越高，音率越高，音率越高，音率越高，音调调越高，反之亦然。越高，反之亦然。越高，反之亦然。越高，反之亦然。vv音色是声音的特色。影响声音特色的主要因素是复音，即具有不同音色是声音的特色。影响声音特色的主要因素是复音，即具有不同音色是声音的特色。影响声音特色的主要因素是复音，即具有不同音色是声音的特色。影响声音特色的主要因素是复音，即具有不同频频率和不率和不率和不率和不同

31、振幅的混合声音。同振幅的混合声音。同振幅的混合声音。同振幅的混合声音。vv音音音音强强是声音的是声音的是声音的是声音的强强度，也被称度，也被称度，也被称度，也被称为为声音的声音的声音的声音的强强度。音度。音度。音度。音强强与声波的振幅成正比，振幅与声波的振幅成正比，振幅与声波的振幅成正比，振幅与声波的振幅成正比，振幅越大，越大，越大，越大，强强度越大。度越大。度越大。度越大。vv对对于数字音于数字音于数字音于数字音频频信号，音信号，音信号，音信号，音质质的好坏与数据采的好坏与数据采的好坏与数据采的好坏与数据采样频样频率和数据位数有关。率和数据位数有关。率和数据位数有关。率和数据位数有关。vv音

32、音音音质质与声音与声音与声音与声音还还原原原原设备设备有关。有关。有关。有关。vv音音音音质质与信号噪声比与信号噪声比与信号噪声比与信号噪声比(SNR)(SNR)(SNR)(SNR)有关有关有关有关。57大家好文件文件文件文件数字化的音数字化的音数字化的音数字化的音频频文件主要分文件主要分文件主要分文件主要分为为4 4类类：vv波形音波形音波形音波形音频频文件。一种最直接的表达声波的数字形式，文件文件。一种最直接的表达声波的数字形式，文件文件。一种最直接的表达声波的数字形式，文件文件。一种最直接的表达声波的数字形式，文件扩扩展名是展名是展名是展名是“.wavwav”。vvMIDIMIDI音音音

33、音频频文件。一种文件。一种文件。一种文件。一种计计算机数字音算机数字音算机数字音算机数字音乐乐接口生成的数字描述接口生成的数字描述接口生成的数字描述接口生成的数字描述音音音音频频文件，文件，文件，文件，扩扩展名是展名是展名是展名是“.midmid”。声音声音声音声音处处理理理理vvCD-DACD-DA音音音音频频文件。文件。文件。文件。标标准激光准激光准激光准激光盘盘文件，文件，文件，文件，扩扩展展展展名是名是名是名是“.cdacda”。vv压缩压缩音音音音频频文件。在数字音文件。在数字音文件。在数字音文件。在数字音频领频领域，一种域，一种域，一种域，一种MP3MP3格式的格式的格式的格式的压

34、缩压缩音音音音频频文件很流行，文件很流行，文件很流行，文件很流行，该该格式的文件格式的文件格式的文件格式的文件简简称称称称MP3MP3文件。文件。文件。文件。58大家好声音声音声音声音处处理理理理获获取声音取声音取声音取声音获获得得得得CDCD中的声音中的声音中的声音中的声音录录音音音音声音声音声音声音转换转换如果希望把音如果希望把音如果希望把音如果希望把音乐乐CDCD中的歌曲或中的歌曲或中的歌曲或中的歌曲或乐乐曲作曲作曲作曲作为为素材，需要把素材，需要把素材，需要把素材，需要把这这些歌曲或些歌曲或些歌曲或些歌曲或乐乐曲曲曲曲转换转换成成成成计计算机能算机能算机能算机能够处够处理的数字化声

35、音，理的数字化声音，理的数字化声音，理的数字化声音，这这就是就是就是就是“采采采采样样”。可以使用。可以使用。可以使用。可以使用Easy CD-Easy CD-DA ExtractorDA Extractor、CoolEditCoolEdit等音等音等音等音频处频处理理理理软软件件件件对对音音音音频进频进行行行行编辑编辑和和和和处处理。理。理。理。要要要要录录制音制音制音制音质质好的声音，有两个途径：使用性能好的声音，有两个途径：使用性能好的声音，有两个途径：使用性能好的声音，有两个途径：使用性能优优良的良的良的良的录录音音音音设备设备；采用；采用；采用；采用较较高的采高的采高的采高的采样频样

36、频率。可以使用率。可以使用率。可以使用率。可以使用WindowsWindows系系系系统统自自自自带带的的的的“录录音机音机音机音机”进进行行行行录录音。音。音。音。声音的声音的声音的声音的转换转换只能从高只能从高只能从高只能从高质质量向低量向低量向低量向低质质量量量量进进行，声音的行，声音的行，声音的行，声音的转换转换不需要不需要不需要不需要专门专门的的的的软软件，件，件，件，使用使用使用使用WindowsWindows的的的的“录录音机音机音机音机”转换转换即可，并且即可，并且即可，并且即可，并且转换转换功能很功能很功能很功能很强强。如果要如果要如果要如果要进进一步一步一步一步处处理，可采

37、用理，可采用理，可采用理，可采用CoolEdit(Adobe AuditionCoolEdit(Adobe AuditionCoolEdit(Adobe AuditionCoolEdit(Adobe Audition）工具）工具）工具）工具软软件。件。件。件。59大家好短时能量和过零率短时能量和过零率l语音分帧每帧10-30ms,帧间隔10msl短时能量l对数l平方和l绝对值l过零率(ZCR)6060大家好参数提取的预处理参数提取的预处理l预加重：减少尖锐噪声影响，提升高频部分l加窗：Hamming减少Gibbs效应6161大家好各种参数的比较各种参数的比较lLinearPredictionC

38、epstrumCoefficients(LPCC)l假定所处理信号为自回归信号（不适用辅音）；l计算简单，但抗噪性差。lMel-FrequencyCepstrumCoefficients(MFCC)l模拟人的听觉模型；l强调低频部分，屏蔽噪声影响；l识别率高，但计算量大。l能量l辅助作用，需归一化。l音调l对算法要求高，适于二次判别。6262大家好Mel-频率频率l目的：模拟人耳对不同频率语音的感知l人类对不同频率语音有不同的感知能力l1kHz以下，与频率成线性关系l1kHz以上，与频率成对数关系lMel频率定义l1Mel1kHz音调感知程度的1/10006363大家好Mel-频率频率l公式：

39、l频率Mel-频率：-频率-Mel-频率Mel-频率频率(Hz)6464大家好MFCCl计算流程：65DFT时域信号线性谱域Mel滤波器组LogDCTMel谱域对数谱域MFCC65大家好2语音识别2 语音识别（1 1）语言是人言是人类特有的功能，声音是人特有的功能，声音是人类常用的常用的工具，是相互工具，是相互传递信息的信息的最主要的手段最主要的手段。（2 2）语音和音和语言与人的智力活言与人的智力活动密切相关，是人密切相关，是人们构成思想疏通和感情交流的构成思想疏通和感情交流的最主要的途径最主要的途径。通通过语音音传递信息信息是人是人类最重要、最有效、最重要、最有效、最常用和最方便最常用和最

40、方便的交的交换信息形式。信息形式。66大家好参考资料参考资料2 语音识别1、赵力.语音信号处理.机械工业出版社，2003.（教材）2、韩纪庆、张磊、郑铁然.语音信号处理.清华大学出版社,2004.3、杨行峻、迟惠生.语音信号数字处理.电子工业出版社，2004.4、易克初、田斌.语音信号处理.国防工业出版社,2000.5、Huang X D,Acero A,Hon H,etal.Spoken Language Processing:A Guide to Theory,Algorithm and System Development.New Jersey:Prentice Hall PTR,200

41、1 67大家好内容提示2 语音识别2.1 语音识别的重要性2.2 语音识别的定义、原理和分类2.3 语音识别的历史回顾2.4 语音信号处理简介2.5 语音技术概述68大家好l特定人和非特定人（话者相关或话者无关）l词汇量（大，小）l孤立词，连接词，关键词和连续语音l自然发音和朗读发音l口音（方言）l背景噪音（环境噪音）l信道差异（固定电话，麦克，手机等）l声学模型（HMM，mono-phone，bi-phone，tri-phone）l声学特征（MFCC）l解码（Viterbi）语音识别语音识别基本术语（基本术语（1）69大家好l识别指标：lSER（Sentence Error Rate，句子错

42、误率）lWER（Word Error Rate，词错误率）lCER（Character Error Rate，字错误率）lPER（Phone Error Rate，音节错误率）l采样率，8kHz（电话或手机），16kHz（麦克风）l时域，频域l端点检测，静音检测或有效音检测（VAD）语音识别语音识别基本术语（基本术语（2）70大家好l人类利用语言相互交流信息，包括语音和文字两种表达方式。通过语音相互传递信息，这是人类最重要的基本功能之一。随着信息社会的发展，人与人之间，人与机器之间也需要进行大量的信息交换。l计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面

43、，从而对计算机的发展以及推广应用产生深远的影响。2.1 语音识别的重要性2 语音识别71大家好人与人之间、人与机器之间的语人与人之间、人与机器之间的语音信息处理过程音信息处理过程人与人之间的语音通信人与人之间的语音通信(人人)行行动动意意图图说话方说话方收听方收听方语言形成发音收听认识理解传输系统(编码、解码)空间传播文本解析语音合成语音识别文文章章输输入入(机器机器)语音理解计计算算机机处处理理应答文生成应答文生成：第一类人机语音通信问题：第二类人机语音通信问题72大家好计算机模拟人类交流信息的过程计算机模拟人类交流信息的过程(1)将大脑产生的思想转换成语言(2)将语言转换成相应的语音(3)

44、识别表达语言的语音内容(4)理解语音所表达的语言意义自然语言生成自然语言理解语音合成语音识别73大家好基于电话的语音识别技术，使计算机直接为客户提供金融证券和旅游等方面的信息查询及服务成为可能，进而成为电子商务中的重要一环(Voice-Commerce)。语音识别技术作为声控产业，对编辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用。可以预言，语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性的影响。语音识别是一项具有巨大应用推语音识别是一项具有巨大应用推广前景的工程广前景的工程74大家好主要先进国家都将此工程列为国主要先进国家都将此工程列为国家级研

45、究项目家级研究项目面对如此广阔的应用领域，目前国内外众多公司正积极推动语音识别技术的应用。微软：让计算机能说会听 IBM：ViaVoice仍居主流 Intel：做语音技术倡导者 75大家好Bill Gates 在97年世界计算机博览会(COMDEX)主题演讲会上描绘IT事业的发展宏图时指出：l下一代操作系统和应用程序的用户界面将是语音识别。工业界应对语音识别领域的重大突破做好充分准备，因为那将是一场席卷全球的另一次热潮。1998年11月5日，微软中国研究院在北京成立。该中心的任务是重点研究计算机在中文环境下的易用性。微软：让计算机能说会听微软：让计算机能说会听76大家好IBM公司潜心研究语音识

46、别技术迄今已达30年之久，投资超过2亿美元。IBM公司于1995年在北京成立了中国研究中心，中文语音信息处理成了该中心三大研究领域之一，并于1997年9月4日，在北京推出了中文连续语音识别产品ViaVoice。IBMIBM：ViaVoiceViaVoice仍居主流仍居主流77大家好1998年，英特尔公司也宣布致力于推广语音识别技术，除了在北京举办首届语音技术国际论坛之外，还在北京、上海、成都、广州等地展开了“基于英特尔框架的语音识别技术”的宣传活动。联合了七家世界著名学术机构（中科院自动化所、清华大学、香港科技大学、香港中文大学、麻省理工学院、俄勒岗研究院、WATERLLOO大学）成立了“国际

47、语音技术研究组织”，致力于计算机语音技术的基础研究，以加速中文语音识别技术的发展。IntelIntel：做语音技术倡导者：做语音技术倡导者78大家好语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。语音识别所涉及的学科领域：信号处理、物理学（声学）、模式匹配、通信及信息理论、语言语音学、生理学、计算机科学（研究软硬件算法以便更有效地实现用于识别系统中的各种方法）、心理学等。2.2 语音识别的定义、原理和分类2 语音识别79大家好l语音识别是指从语音到文本的转换，即让计算机能够把人发出的有意义的话音变成书面

48、语言。通俗地说就是让机器能够听懂人说的话。l所谓听懂，有两层意思，一是指把用户所说的话逐词逐句转换成文本；二是指正确理解语音中所包含的要求，作出正确的应答。2.2.1 2.2.1 语音识别的定义语音识别的定义80大家好有意义、有内容的信息是构成语音音韵特性、即语音的共性特征之基础，这类特征信息称为音韵信息。语音信号中有关个人特征的信息、即语音的个性特征，如：音强、节奏、音高等，这类特征信息称为音律信息。从广义上讲，语音识别也包括了对说话人的识别，其主要内容是提取语音信号中有关个人特征的信息、即语音的个性特征（如：音律特性等），在这里专指有意义、有内容的识别。音韵信息与音律信息音韵信息与音律信息

49、81大家好训练(Training)：预先分析出语音特征参数，制作语音模板(Template)并存放在语音参数库中。识别(Recognition)：待识语音经过与训练时相同的分析，得到语音参数，将它与库中的参考模板一一比较，并采用判决的方法找出最接近语音特征的模板，得出识别结果。失真测度(Distortion Measures)：在进行比较时要有个标准，这就是计量语音特征参数矢量之间的“失真测度”。主要识别框架：基于模式匹配的动态时间规整法(DTW:Dynamic Time Warping)和基于统计模型的隐马尔柯夫模型法(HMM:Hidden Markov

50、Model)。2.2.2 2.2.2 语音识别的基本原理语音识别的基本原理82大家好l不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统的实现过程如图所示。语音识别原理框图语音识别原理框图预处理预处理特征提取特征提取参考模式参考模式模式匹配模式匹配判决规则判决规则语音信号语音信号识别结果识别结果训练训练识别识别图图语音识别的实现语音识别的实现83大家好预处理预处理语音信号的放大、防混叠滤波、自动增益控制、模数转换、消除噪声、端点检测。端点检测：从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能使处理的时间减到最小，而且能排除无声段的噪声

展开阅读全文