语音信息处理ppt.ppt-资源下载-咨信网-让知识获取变得高效

语音信息处理ppt.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,语音信号处理,Speech Signal Processing,金赟,江苏师范大学物电学院,第一讲绪论,1.,语音信号处理的概念,2.,语音信号处理的学科基础,3.,语音信号处理的分支和应用,4.,语音信号处理的发展历史,5.,本课程的内容和特点,6.,参考书目,7.,学习要求,1.,语音信号处理的概念,语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。,2.,语音信号处理的学科基础,语音识别,声学,信息论,语音、语言学,信号,处理,人工,智能,模式,识别,数理,统计,听写机,查询,系统

2、电话,拨号,残疾人用品,消费,电子,实际应用,学科基础,语音识别的应用背景和学科基础,3.,语音信号处理的分支和应用,语音识别,语音合成,语音编码,说话人识别,3.1,语音识别,(1),语音识别研究的目的就是研究出一种具有听觉功能的机器，能直接接受人口呼的命令，理解人的意图，并做出相应的反应。,语音识别的应用,语音识别技术在信息处理领域的首要的巨大应用将在于提供了一种全新的人机交互形式。,苹果的,Siri,。,Siri,恶搞,，,国人,Siri,，,Siri,惊魂,，,Siri,日式英语,。,语音输入法,。,语音识别的分类,针对说话人：特定说话人语音识别和非特定说话人语音识别,针对词汇量：小

3、词汇量、中词汇量和大词汇量的识别,针对说话方式：孤立词识别和连续语音识别,针对识别环境：实验室环境语音识别、电话语音识别和广播语音识别,语音信号和自然语言的多变性和复杂性,(1),连续语音词与词之间没有明显的停顿，词与词之间的,分割比较困难；,(2),每一个基本的声学识别基元（如音素）受前后音素发,音方式的影响（协同发音）使特征变得不稳定,(3),不同人、不同心理和生理以及在不同的说话环境下说,同一词时，声学信号特征会发生变化；,(4),一个词的读音不仅包含了词义特征，而且还包含了说,话人性别、年龄、情绪等大量与词义无关的信息，而,这些信息的分离是不容易的。,(5),自然语言的多变性难以借助于

4、一些基本语法规则进行,描述，因而使计算机编程变得困难。,(6),语音信号往往受到其他信号的干扰和信道的影响。,特定,任意,孤立字,词,短语,句子,朗读,自然口语,口语对话,小,（几十）,中,（几百）,大,（几千）,3.2,语音合成,语音合成,是将,计算机,自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。（让电脑说话）,语音合成的应用,1,海量信息查询类业务,大部分海量信息如考试查分、征婚启事、人才信息、电话广告等，由于其内容庞大，往往无法在短期内完成录音，即使可以事先录音，也需要很长的制作周期，而且在量大的时候肯定会出现人为错误；采用语音合成技术可以节约大量人力，缩

5、短开发周期，而且能够完全保证了所有信息,100,正确。,2,动态信息查询类业务,声讯节目逐渐地由现在娱乐型节目为主的节目构成转向以应用型的节目为主，而多数的应用类节目对实时性要求比较高，如证券行情、订票、订房等，上述应用中动态信息不可能事先录音，需要实时地从数据库中读取，动态进行语音合成，保证信息的实时性。,自动报时、报警、公共汽车或电车自动报站,打印出版过程中的文本校对。,电子函件及各种电子出版物的语音阅读。,列车惊魂,，语音合成配音,Tom,猫咆哮体,马丁路德金演讲,大脑扫描，语音合成,语音合成的例子（,霍金,）,不能说话和做手势，如何演讲写字？,在霍金的眼镜上，约距右颊一英寸处，安装了负

6、责侦测肌肉活动的红外线发射器及侦测器，譬如他想打招呼，说声,你好,，他先以眼球控制红外线感应器，选定在屏幕上轮流出现的英文字母，当计算机出现他想要的,H,时，霍金再动眼球，这样计算机就会不断显示以,H,为字头的英文字，当,HELLO,出现时，他又动一下以选定这个字，当他造句完毕后，才把句子传至合成器发声。因此霍金要说一句话，就要逐字逐句输入计算机，再由语音合成器将文字化成声音，一分钟只能处理,3-5,个字。,科大讯飞语音合成在线演示,,(Voice Over Internet Protocol),语音编码的应用,数字通信系统,移动无线通信,保密语音通信,3.4,说话人识别,说话人识别（声纹识别

7、可分为两种：,说话人辨认,说话人确认,目前，声纹识别已经在证券交易、银行交易、身份证、信用卡的认证等领域均有应用。在国外，声纹识别技术已经取得了较为广泛的应用。美国已把声纹识别用到保险、银行等行业，迪拜在交通管理上使用声纹验证来确认驾驶员身份，戴尔公司已经实施了声纹认证用于网上订购，菲律宾政府的养老金系统现在也可以通过声纹识别来完成身份认证。,在国内，声纹识别技术目前已广泛应用于嵌入式系统，同时其他方面的应用也逐渐兴起，如招商银行已经于,2008,年,8,月开始与以色列的,PerSay,公司进行声纹识别方面的项目合作。,声纹识别已成功应用在司法鉴定领域。利用声纹识别技术确定犯罪证据，如通过分

8、析电话录音资料来确定犯罪嫌疑人的身份和犯罪行为等做法，已在一些刑事案件的侦破中得到应用。美国在,1971,年就公开认可使用声纹鉴定。,在国内，随着各种录音设备的普及，声音材料的留存十分方便，因此一些案件就可以借助声纹鉴定来协助案件的侦查和审理。声纹鉴定已经成为国内司法鉴定机构的一种重要技术手段，其在司法活动的某些方面已然发挥出显著的作用。,声纹识别的应用,还杰克逊一个“清白”。,爆炸新闻,拉登之死。,车臣总统杜达耶夫。,4.,语音信号处理的发展历史,国外发展历史,人们在,19,世纪就已经发现，元音主要是靠第一共振峰和第二共振峰来区别，声母的感知主要靠共振峰的弯曲方向和力度。但是，真正的语音识别

9、却是始于,1952,年，当时贝尔实验室,Davis,等人通过提取语音的第一、第二共振峰作为语音特征参数，采用专用硬件实现了一台,10,个英文数字的语音识别系统,Audry,System,。,国外发展历史,20,世纪,50,年代末,60,年代初，集成电路出现，语音信号终端系统从,模拟方式演变为全数字系统方式,，语音数字信号处理从此开始。最早从事此项重要技术变革的实验室有贝尔电话实验室、麻省理工学院林肯实验室、,IBM Thomas Watson,研究实验室、,BBN,语音研究小组和得克萨斯仪器公司，以及一些著名的大学研究小组。,1959,年，美国林肯实验室的,J.W.Rogie,和,C.D.F

10、orgie,首次用数字计算机识别出了英语元音和以摩擦音开头的孤立字，标志着计算机语音识别时代的开始。,国外发展历史,20,世纪,60,年代，快速傅立叶变换（,FFT,）技术被广泛地采用来进行频谱分析，采用其逆变换，还可以反求源信号。在傅立叶分析的帮助下，人们开始研究自然语音产生的内在机制和本质特征。,瑞典的,G.Fant,的博士论文,语音产生的声学理论,就是这个时期的代表作，对以后的语音处理的研究工作产生了深刻的影响。,国外发展历史,20,世纪,60,年代末,70,年代初,Baum,等人首次系统地阐述了马尔可夫模型（,HMM,，,Hidden Markov Model,），并把它引入语音识别

11、目前，,HMM,模型是语音识别的最好算法，它也广泛应用于经济学上的预测问题。,与此同时，语音识别的线性预测参数,LPC,首次被提出来，采用线性预测进行研究的实践开始。以后的低速率语音编码技术，很大程度上都是依靠线性预测进行来实现的。,国外发展历史,同时，动态时间弯曲,DTW,技术出现，有效的解决了语音识别过程中，不等音长的匹配问题。此时的许多系统，都是建立在,LPC,参数和,DTW,匹配技术基础上的孤立词识别系统。,美国国防部高级计划研究局（,ARPAR,）的语音识别和理解研究计划，产生了,HAPPY,，,HEARSAY-II,和,DRAGON,等典型的语音识别理解系统，提出了具有深远意义的

12、知识源黑板模型，扩充转移网络（,ATN,）算法等。,国外发展历史,20,世纪,80,年代贝尔实验室,Rabiner,等人对,HMM,模型进行了深入浅出的介绍，从此以后,HMM,模型在语音识别领域里确立了不可替代的地位，成为目前世界各国从事语音处理的最有效的方法。,矢量量化法,VQ,也在此时开始应用到语音识别中。,1987,年，,IBM,公司采用,VQ/HMM,方案实现了一个具有,2000,个孤立字的特定人语音识别模型系统,Tangora-2000,。,1988,年,CMU,同样采用,VQ/HMM,实现了一个具有,977,个词，并且能构成,4200,个句子的非特定人连续语音识别系统,SPHIN

13、X,。,国外发展历史,20,世界,90,年代，语音识别开始从实验室走向市场。,CMU,、,BBN,、,IBM,和,AT&T,都推出自己的语音识别产品。,Microsoft,、,Apple,、,Toshiba,、,Philips,和,Intel,不甘落后，也开始致力于语音识别系统开发。语音识别朝着大词汇量、非特定人、自然连续语音方向发展。目前，,Microsoft Office XP,以上版本已经集成了语音识别功能，可以采用语音输入法输入汉字。,国外主要的研究单位：,美国的,CMU,（,卡内基梅隆大学）、,MIT,（,麻省理工学院）、,IBM,、,美国电报电话公司,AT&T,英国的,Cambr

14、idge,（,剑桥大学）,国内发展历史,20,世界,50,年代，中科院声学所开始进行语音识别研究。,1972,年，俞铁城先生最早在计算机上研究语音识别。中国语音识别的真正的开端应该是,1978,年，中科院声学所实现的采用带通滤波器组参数为特征的语音识别系统,RTSRS,（,01,）的产生。,国内发展历史,20,世界,80,年代，针对汉语单音节的特点，清华大学、中国科学院、北方交通大学、东南大学等开发了汉语特定人孤立字全音节语音识别系统。,清华大学王作英教授提出了,DDBHMM,模型。,1986,年，国家,863,项目语音方向设立，俞铁城先生受命筹备此项研究计划。,国内发展历史,目前，我国语音识

15、别队伍主要有北大、清华、中科院等。其中中科院声学所的人员大部分是原,Intel,资深的工程师，因此在国内的语音识别领域一直遥遥领先。,国内一些大公司，例如诺基亚、摩托罗拉、松下电器等，也致力于语音识别领域的研究。社科院长期进行实验语音学方面的研究。,国内发展历史,目前，国际和国内在实验室条件下的识别正确率均在,90,以上。实验室条件一般是采用高保真的,Sennheiser,麦克风录制的语音信号，信道扭曲非常小，几乎没有任何背景噪音。标准的数据库有,TIMIT,数据库等。,1991,年,2,月,NIST,(National,Institute Of Standards And Technolog

16、y),的测试报告结果，如果不考虑语法约束，识别正确率为,80,多；考虑语法约束后，识别率提高到,90,以上。这些都是非常喜人的成果。,然而，这些结果都是在高质量的实验条件下获得的。实验证明，当语音数据简单地通过电话线传播后，识别正确率将会直线下跌。,国内发展历史,1995,年，林肯实验室将,TIMIT,数据库（实验室条件）和,NTIMIT,数据库（,TIMIT,数据库通过电话传输录音）作了一次说话人识别的对比，结果表明，当实验对象简单经过电话信道传输后，识别正确率由原先接近,100,急速下降到,60,多。如何在自然环境下令人满意的进行语音识别，依旧是国内外语音学家一个艰巨的任务。,国内发展历

17、史,2003,年，从世界主要语音识别机构电话对话录音识别率基本是保持在,70-80,之间。,国内发展历史,2004,年，我国,863,评测（评测结果可以看,863,评测网站）小组对国内主要机构再次进行评测，测试集取样于马路边嘈杂环境，最低信噪比大约,5,分贝。在如此恶劣条件下，在内容识别方面，中科院声学所和自动化所均取得了约,74,的正确率，清华大学取得约,50,的正确率，其他院校最差的取得,9,的正确率。,其中，中科院的识别水平已经比较接近国际先进水平，清华北大距离国际先进水平还有一定距离，多数高校则远远未达到实用的要求。,国内主要研究机构,中科院声学所,中科院自动化所,清华大学,哈尔滨工业

18、大学,中国科技大学,东南大学,5.,本课程的内容和特点,绪论,语音信号处理的基础知识,语音信号分析,矢量量化技术,隐马尔可夫模型,语音编码,语音合成,语音识别,语音增强,本课程的特点,内容不断更新,涉及的前沿知识较多，基础知识也广泛。,6.,参考书目,语音信号处理,易克初、田斌、付强编著,.,国防工业出版社，,2000,语音信号处理,胡航编著,.,哈尔滨工业大学出版社，,2000,语音信号处理,韩纪庆,张磊,郑铁然,，清华大学出版社,2004,语音信号数字处理,作者：杨行峻，迟惠生著，电子工业出版社，,1995,Lawrence,Rabiner,Bing-Hwang,Juang,：,“,FUN

19、DAMENTALS,OF SPEECH RECOGNITION”,，,(,影印版,),清华大学出版社，,1999,7.,学习要求,掌握书中基本内容,会查阅资料,会看文献,会研究问题,教材、杂志、会议论文,硕、博论文库、学术期刊网,、,elsivier,.hk,专著、专利、内部技术报告,国内杂志：,声学学报、电子学报、自动化学报、数据采集与处理、人工智能,国外杂志,Speech Communication,、,Signal Processing,会议论文,IEEE,Institute for Electrical and Electronic Engineers,ICASSP Internal conference on acoustics speech signal processing,ICSLP Internal conference of spoken language processing,EUROSPEECH,THANKS,！,

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？