[中国PPT模板网]语音信号数字处理.ppt-资源下载-咨信网-让知识获取变得高效

[中国PPT模板网]语音信号数字处理.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,语音信号数字处理,张力,参考数目：,语音信号数字处理,杨行峻,语音信号处理,易克初,绪论,数字语音处理的概念,语音的基本特征,数字语音处理的发展,课程内容以及安排,前言,耳聪目明,听说读写,语音和图像重要的感知媒体,对语音和图像的分析处理媒体计算的主要研究对象和内容,语音：新一代自然人机交互的关键之一,信号处理模式识别人工智能,语音信号处理的概念,语音信号处理简称语音处理，是以语音学和数字信号处理为基础而形成的一门综合性学科，处理的目的是要得到一些语音参数以便高效的传输或存储，或者通过处理的某种运算以达到某

2、种用途的要求，例如人工合成出语音，辨识出说话者，识别讲话的内容等。,它包括语音编码、语音合成、语音识别和说话人识别四大分支。,语音的定义,语音是人类发音器官发出的、具有一定意义的、能起社会交际作用的声音。,能够代表一定的意义，这是语言的声音同自然界其他一切声音的本质区别。,人体外的声音自不必说,(,如钟声、风声、动物叫声、机器声,),，就是人的发音器官发出的声音，也并非都是语言。,如打喷嚏、打嗝儿、打哈欠、咳嗽等等，虽然也传递出了某种信息,病了，饱了，困了或是醒了，但声音的发出不是为了交际，而是人体本能的生理反映；又如吹口哨、口技演员的表演、哭、笑等等，这些声音的发出是有目的的，是一定的心理活

3、动的表现，不是单纯的生理现象，但声音同意义之间没有固定的结合关系，不能成为代表意义的声音符号，只能表示情绪，展示技巧。以上这些声音都不是语言。,语音的定义,语言的声音同它所代表的意义是相互依存的统一体，,一方面，发音器官发出的声音必须同意义紧密结合、成为一定意义的代表，才能成为语音；另一方面，意义必须借助声音才能成为可被人感知、被人接受的东西，没有声音，意义便无法表达出来。,语音是一种具有多重属性的声音。,首先，它同自然界其他声音一样，是由物体振动产生声波而形成的一种自然现象，所以它具有物理的属性方面的,自然属性,。语言又是人类的生理现象，发音是人体器官的动作。因此，它同时具有,生理属性,。作

4、为语言这一特殊社会现象的物质基础，语音又具有,社会属性,，这是语音的本质属性。我们在分析语音现象的时候，这三种属性都会涉及到。,语音学,语音学是研究语音过程的科学，包括发音语音学、声学语音学和听觉语音学三大分支。,发音语音学研究发音器官在发音过程中的运动和语音的音位特征；,声学语音学研究语音的物理属性，如语音声波的频率、振幅以及频谱特性等；,听觉语音学研究听觉和语音感知。,语音的属性,物理属性,物体由于某种外力的作用发生振动，并引起周围空气或其他媒介物质的振动，产生了振动波,声波，声波作用于耳鼓膜，使之产生同样的振动，刺激听觉神经，人就感觉到了声音。,语音也是这样产生、传递与接收的。,物理声学

5、认为声波具有,音高、音强、音长、音色,四种要素，语音同样是这四种要素的统一体。,声波示意（,L.A.Rowe,）,压缩,稀薄,时间,幅度,正弦波,声波频率,声压变化可以是周期性的和非周期性,频率概念,循环（,cycle）,-,压缩/稀薄过程,频率（,frequency,）：,每秒,cycle,数，单位,hertz(Hz),周期,cycle,的持续时间,(1/,frequency),声音信号一般由许多频率不同的信号组成，称为复合信号；而单一频率的信号称为分量信号,频率范围,频率小于20,Hz,一般,称为次声波（,subsonic),人的听觉器官能感知的声音频率范围约为20,Hz,20kHz,的信

6、号称为音频(,Audio),信号,人发音器官发声频率约是803400,Hz,，,但人说话的信号频率约为3003000,Hz,，,即话音(,speech),信号,高于20,kHz,的,信号称为超声波(,ultrasonic),超声波及次声波一般不能引起人听觉器官的感觉，但可借助一些仪器设备进行观察和测量,语音的物理属性,音高,音高指声音的高低，它取决于发音体振动的快慢。发音体振动越快，发出的声音越高，反之声音则低。,物体每秒钟振动的次数叫频率，声学把频率作为测定物体振动快慢与声音高低的标准。,说声音的频率高就是说发音体在单位时间里振动次数多，它振动得快，发出的声音高，而频率低也就表示声音低。,频

7、率的高低是由物体自身的质量、松紧度、长短等项因素决定的，,大而沉、粗而厚、长而松的物体振动慢，音低；小而轻、细而薄、短而紧的物体振动快，音高。,语音的高低则与声带的长短、厚薄、松紧有关。通常，儿童和一般妇女的声带比成年男子的声带短而薄，所以声音高；而声音低的人声带相对说长而厚，如成年男子，女中、低音声乐演员，老人等。同一个人发出的声音有高低变化，则是靠控制声带的松紧来调节的。,典型声门脉冲波形,Tp,为基音周期，倒数为基音频率，用,fp,表示，取决于声带的尺寸和特性,男性说话者的,fp,大致分布在,60-200Hz,范围内,女性说话者和小孩的,fp,值在,200-450Hz,范围内,同一个人所

8、发出的声音有高低变化，是靠控制声带的松紧来调节的。,语音的物理属性,音强,音强是指声音的强弱，它取决于发音体振动幅度的大小。,物体振动的幅度叫振幅，振幅大，发出的声音强度就大，振幅小，声音就弱。,振幅的大小是由引起物体振动的外力的大小决定的,。,语音的强弱同发音时呼出气流量的大小和说话人用力的大小有关。发音时用力大，冲击声带或其他发音部位的气流强，语音就强。,语音的物理属性,音长,音长指声音的长短，也就是声波延续的长度，它取决于发音体振动持续的时间。,在语音中，再长的音实际上也很短，音长一般决定于发音动作持续的时间。,在四要素中，音高音强音色总是随着音波在时间上的延续表现出来的，,音长的变化往

9、往会影响到音质音高和音强,，语音中就常会出现这种情况。如普通话的轻声，读轻声的字，声韵母的音质、声调的音高、音节的强度都可能与读它的本调时不同，但造成轻的决定性因素是音长缩短，轻声字音节的长度只有重读音节长度的一半左右，这使得声韵调原有的音高音强音质来不及完全表现，因而出现变化。,语音的物理属性,音质,音质又叫音色，是一个声音能区别于其他声音的本质特点。声波的振动方式与共鸣器的共振作用，都决定着音质的差别。,世界上的声音很少是只有一种单纯频率的纯音，绝大多数声音都是由许多个频率和振幅不同的音波组成的复合音。复合音的各成分波之间频率和振幅相互影响，形成了特定的波形，产生出特定的音质。,从波形上看

10、音质可分为两类,噪音与乐音。,噪音是由许多无规则的音波合成的，它们的音高和强度随时在变化，相互之间没有一定的关系，合成的波形杂乱而无规律。这种声音听起来刺耳、嘈杂，如刹车声，电锯锯木声，马路上车驰笛鸣的喧闹声等等。语音中也有不少噪音成分，如辅声中的塞音、擦音、塞擦音等等。,乐音则由若干规则的纯音组成，形成的复合音波有周期性，很有规律，,这样的声音听起来和谐、悦耳，歌声、乐声和语音中的元音，都是这样的声音。,语音的物理属性,音质,从音波的产生上看，造成不同音质的发音条件有三种：,发音体不一样,，口琴和笛子的音质不同，因为口琴的发音体是金属簧片，笛子的发音体是竹膜。,发音方法不一样,，拍手掌发出

11、的是,“,啪啪,”,声，两手掌来回搓发出的是,“,擦擦,”,声。在语音中，用阻碍气流的方法发出的是辅音，用不阻碍气流的方法发出是就是元音。,共鸣器形状不同,。共鸣器有自己的振动频率，它会同跟自己频率相同或相近的音波产生共振，把它加强，其它频率的音波就会被抑制或消耗。不同形状的共鸣器频率不一样，即使是对同一束复合音波，产生的共振结果也不一样。对于语音来说，口鼻腔就是共鸣器，一个人不断改变口形就会发出不同的音。,语音的物理属性,音质,共鸣器形状对语音音质的区分还有另一方面的意义。倘若男女老少四人来发一个,a,音，他们的声带长短厚薄及韧性等各有差异，产生的音波肯定是不同形式的，但我们除了听出是四个人

12、的声音外，总还是听到了同一个韵母的音质。,原因还在共鸣器的形状。不同的人发同一个音时，口鼻腔形状虽然不会绝对相同，但其形状的基本特点是一致的，比如发,a,时都要把舌面压低，口腔开大，舌根后部的咽腔相对窄小。现在就是四束复合波与同一个形状的共鸣器发生共振了，每人被共振加强的音波在绝对频率上虽不见得一样，但共振频率分布的位置却有共性，这使我们听出了同样的元音。在元音的识别中，音质并不决定于声波的振动形式，而决定于共鸣器形状对共振频率的选择。,这也说明了在语音传递过程中，准确的发音动作有多么重要，共鸣器形状正是靠发音动作来调节的。,语音的生理属性,人体没有专门用来发音的器官，起发音作用的是呼吸器官和

13、消化器官的一部分，它们的协同动作产生了语音。了解这部分器官的构造、活动方式及对语音的作用，是正确发音、辨音的基础。,语音的生理属性,发音器官,发音器官可分三部分。,1 肺和气管,肺部呼吸产生的气流是发音的动力，气流通过气管送到喉头，冲击声带或其他发音器官，使之振动，发出声音。肺本身不能自由扩张收缩，是依靠胸部腹部肌肉群的活动来进行呼吸的。这些肌肉群的活动还可以控制肺部吸入气流量的大小、呼出气流量的强弱及持续时间，影响声音的强弱与长短。,2 喉头和声带气管的顶端接着喉头。喉头由几块软骨及它们相连的肌肉、韧带组成，是个能活动的管腔体，声带就长在喉头中间。声带是一对唇形的韧带，边缘很薄，富有弹性。它

14、一端合并固定在甲状软骨上，不能分开；另一端分别附在两块杓状软骨上。杓状软骨小而灵活，能在肌肉牵引下转动，使声带拉紧或放松，闭合或打开。,声带中间的空隙叫声门，声门有四种常见状态，,正常呼吸状态，,声门敞开，略呈三角形；,深呼吸状态，,声门大开呈菱形；,耳语状,，声带前半闭合后半接近，杓状软骨之间形成三角形空隙，叫气声门，气流从这里擦出，基本不触及声带；,发音状态,，杓状软骨转动向一起合，声带也并拢，声门关闭,语音的生理属性,发音器官,发声状态时声门下的气流受阻，压力增加，气流冲击声带，声带被冲开又合上，再被冲开，再合上，这样不停地开闭，形成有节奏的颤动。气流从声带间一喷一喷地冲出来，产生了规律

15、的周期波，这就是原始的声带音。,声带音只是一种微弱的蜂鸣声，我们是听不见的，经过咽腔、口腔、鼻腔的共鸣作用放大，我们才听到响亮的乐音。声带的颤动是语音中乐音成分的声源。,声带还同语音的高低有密切关系。杓状软骨的转动可以调节声带的松紧，声带绷紧时和放松时颤动的频率是不一样的，发出的声音高低也不一样。汉语中声调的高低升降变化，就是通过控制声带松紧来实现的。,语音的生理属性,发音器官,3 口腔、鼻腔、咽腔,这一部分器官既是声带音的共鸣器，又是语音中噪音成分的声源。,喉头到小舌之间的条状空间就是咽腔,，这是人类特有的。一般动物的声门位置很高，声门与口腔间几乎没有空腔。人的声门位置较低，喉头和口腔间距离

16、拉长，形成了咽腔。有了它，舌头和软腭有了充分的活动空间，可以做出灵活多变的动作，发出动物发不出的复杂声音。同时它还是口腔的延伸，是整个共鸣器的一部分。,口腔是发音器官中活动最复杂的部分，除牙齿、牙龈、硬腭外，其余部位都可以活动。,双唇可做出开闭拢放各种动作，下唇还可以收回同上齿接触。上腭后半部分的软腭与小舌可以上升或下垂，它们的主要作用是改变气流方向。它们上升时，小舌抵住咽壁，挡住鼻腔通道，气流进入口腔；下垂时，鼻腔通道打开，气流可进入鼻腔。,语音的生理属性,发音器官,舌头是口腔中最活跃的部件，它柔软而灵活，不仅整个舌头可以前后上下移动，它的各部分(舌尖、舌面、舌根)都可以独立活动。舌头多变的

17、动作是口腔形状能出现丰富变化的重要条件。,鼻腔不像口腔那样可以变动，它是个形状固定的共鸣腔，但当它与口腔连通时，口腔动作的改变也可以发出不同的鼻音。,这部分器官通过复杂的动作不断改变共鸣腔的形状，用不同的共振把原始的声带音变成了我们听见的各种声音。,口腔还有一部分动作是由某些部位靠近或闭合，阻挡了气流，气流必须发力冲破阻挡或从窄小的通道挤过去，才能到达口鼻腔外。在打通通道的同时，气流就冲击了阻挡它的部位，产生出不规则振动的噪声波。这也就是语音中许多辅音的来源。,语音处理研究的基本内容,说的是什么内容？,是谁在说话？,计算机去说话？,怎么把话说好？,语音识别,声纹识别,文语转换,说话水平评估,说

18、的是什么语言？,语种识别,语音信号处理的内容,介绍一下语音学的基本知识,语音产生模型,清音、浊音的产生机理及特性,语音的短时分析特性,同态分析和线性预测分析,目的：求得一组可以逼近声道的特征矢量和相应的激励信号序列,话音编译码器,A/D,话音,编码,信道,编码,信道,信道,译码,话音,译码,D/A,语音合成,(,T,ext,T,o,S,peech),定义：语音合成技术是指将文本信息转换为语音数据，然后以语音的方式播放出来,语音合成的应用：电话查询业务、语音信箱、语音聊天室，公共汽车或电车的自动报站等,语音合成与传统的数字录音技术不同,数字录音技术需要人工录音，语音合成可以利用有限的系统资源将大

19、量的、无限的文本信息转换为语音。,就工作量而言，录音需要大量的人力，语音合成的大部分工作由计算机完成，只需要给出文本信息即可,语音合成与传统的数字录音技术不同,对于一些动态特别是要求实时性的信息，语音合成能够进行实时转换,录音信息的存储、查询、维护、修改不如语音合成方便。,语音识别（,A,utomatic,S,peech,R,ecognition,）,定义：语音识别是指将人们说话的语音信号转换为可以被计算机程序识别的文字信息，从而识别说话人的语音指令以及文字内容,应用：自动订票系统，电话查询等,语音识别的过程,计算机语音识别的目的是让计算机能够听懂人的话,语音识别实际上是一个模式识别匹配的过程

20、首先根据人的语言特征建立语音模型，对输入的语音信号进行分析，抽取相应的特征，建立所需要的模板，在识别过程中，将计算机中存放的语音模板与输入的语音信号特征进行比较。,语音识别的例子,英国的,Webflorists,网上花站利用互联网和语音识别技术接收和处理鲜花订单。,北京中科院研究一种将语音识别技术应用于电视，控制电视的开关和转换频道,说话人识别技术,(,S,peaker,R,ecognition),定义：说话人识别技术是以话音对说话人进行区分，从而进行身份鉴别与认证的技术，通过说话人识别可以利用人本身的生物特征进行身份鉴别。,应用领域：公安部门进行语音验证，为一般的用户提供防盗门开启功能，语

21、音拨号，电话银行，电话购物，语音,E-mail,，信息服务等,说话认识别的基本原理,通过分析人的发声和听觉，为每个人建立一个数学模型，然后由计算机对模型和实际输入的语音进行精确的匹配，根据匹配的结果便人说话人是谁。,语音的基本单位,Phoneme(abstract,smallest),音素:,清音，浊音,Morpheme,词素,Syllable,音节：,元音和辅音构成；（声母和韵母）,Word,单词,Phrase,短语,Sentence,句子,Paragraph,段落,Topics,Articles,Stories,主题文章,研究的范围,语音分析工具：,MATLAB,PRAAT,SFS,言语过

22、程,从说话者想说到听话者对话音的理解是一个很复杂的过程，一般可分为如下几个阶段,想说：大脑产生说话的意向,(intension),，接着生成概念（,concept),，选择合适的词汇，按语法组织成语言；,说出：发音器官协调工作，发出声音（产生声波），面部的肌肉、器官和体态与发音器官配合，送出多种信息以便让听者更好的理解语音，与此同时，讲话者的听觉系统接收到自己的声音，并随之修改；,传输：声波凭借质点的运动而传播；,接收：人的听觉系统负责接收声波，包括外耳、中耳、内耳。内耳的基低膜被声波刺激而振动，激发神经元产生脉冲，传给大脑，从而感知到声音。,理解：听觉神经中枢收到脉冲信息，通过一系列复杂的处

23、理过程，辨认出讲话人，理解其信息内容。,语音技术的研究内容,语音是语言的物质外壳，它涉及到生理、心理、物理、文化以及社会背景等因素。,因此语音处理的涉及面极广，涉及到语音学、语言学、计算机技术、通信技术、物理学和声学、生理学、心理学、教育学等。,声音要素（一）,响度（音响）,loudness,到达人耳的声扰动振幅所产生的听觉的大小,声振动能量是物理特性，可用声强（,sound pressure）,定义，单位:帕斯卡(,Pa),实用上通常都以对数方式的声压级(,sound pressure level),表示，单位:分贝(,db),响度是主观量，不能用任何仪器正确地测量,声音响度使用了以两个声强之比的对数为基础的相对标度，单位：宋（,sone,）,声音要素（二）,音调（音高）,pitch,或,tone,人对声音刺激频率的主观判断与估量，称之为音调(,Pitch)，,单位：美（,Mel）,Frequency,是物理量，而音调是人的感觉,听觉经验,一般女生的声音比男生高,较大物体振动的音调较低,声音要素（三）,音色（音质）,timber,由其频谱决定,不同乐器发出同一音高的乐音，仍然可以分辨,可以把音色描述为音的瞬时横截面，即用谐音（泛音）的数目、强度、分布和相位来描述。,泛音的强度可使音色发生变化，音色的主观特性比响度或音调的主观特性复杂得多。,

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？