硕士：基于web的salt语音识别技术应用研究(终稿资料.doc

资源描述

硕士：基于web的salt语音识别技术应用研究(终稿（完整版）资料 (可以直接使用，可编辑优秀版资料，欢迎下载） A. LIST ALL B. LIST C. DISPLAY D. DISPLAY ALL 【答案】计算机系统，数据库，数据库管理系统，有关人员 ?"i="+str(i,2)+" j="+str(j,2)+" k="+str(k,2) B. REPLACE 工资 WITH工资+100 9. SQL 支持集合的并运算，运算符是______________。 (SELECT * FROM SC WHERE SC.学号=S.学号 AND 成绩<85) ? IIF("A"=X,X-"BCD",X+"BCD") return D. “一方”表的普通索引，“多方”表的候选索引或普通索引学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密 □，在年解密后适用本授权书。本学位论文属于不保密 □。学位论文作者签名：指导教师签名：年月日年月日独创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已注明引用的内容以外，本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：日期：年月日分类号密级 UDC 编号工程硕士学位论文基于WEB的SALT语音识别技术应用研究 The Application and Research of Automatic Speech Recognition Technology Based on SALT 指导教师作者姓名申请学位级别硕士学科(专业) 计算机应用论文提交日期论文答辩日期　　　　　学位授予单位和日期答辩委员会主席　　评阅人 ______________ 摘要长久以来，人们都渴望以一种最简单、最轻松的方式进行沟通。而随着语音识别技术的飞速发展，人与计算机之间的沟通也变得越来越简单。SALT(Speech Application Language Tags)技术是一项新兴技术，它是一种独立平台的标记语言，可以用于创建经由语音平台接入的应用系统。语音识别拥有可观的应用前景，尤其在我们生活信息化越来越加深的今天，应用于Web的语音识别技术作为一个语音识别应用的热点方向，也具有深远广阔的应用前景。该技术在进行Web开发中，可以提供一种全新的解决思路，因此“基于WEB的SALT语音识别技术应用研究”实例的实现是对这一新技术进行研究和实践的很好的学习、应用、检验、改进，甚至提高的过程。在本课题的研究中，主要完成了基于WEB具有语音识别功能并可以根据语音命令完成一定操作基本功能的语音应答平台系统的实现，需要将SALT技术应用于ASP.NET服务系统页面之中。具体工作如下：（1）研究了经典的HMM算法及其他算法，分析其算法性能的优劣。（2）本文重点集中讨论了基于SALT (Speech Application Language Tags)的语音识别应用，介绍了语音合成技术、文语转换系统的组成及其实现过程、自动语音识别技术、自动语音识别系统的组成及其实现过程，探讨基于SALT的语音识别技术在软硬件平台上的实现以及实际应用中的具体问题。（3）本文结合SALT论坛最新即将发布的SALT(语音应用语言标记)技术，提出了基于SALT的语音识别系统实现的体系结构，论述了具体的实现方案和方法，并结合中小企业实际情况，开发了一套语音识别示例系统，初步实现了基于SALT技术的语音识别系统的开发，并初步实现了基于Web的远程部署，为下一步的工作打下一个较为可靠的基础。系统开发集成环境包括:Windows XP操作系统、Microsoft的C#、ASP.NET、ADO.NET和 SALT 1.1 final版插件。关键词: Web，语音识别，SALT，程序设计，ASP. NET Abstract For a long time, people have all wished eagerly to communicate in a kind of simplest, most relaxed way. And with the development at full speed of the recognition technology of the pronunciation, the communication between people and computer becomes simpler and simpler. SALT (Speech Application Language Tags) is a markup language that take service in open, free patentable access, independent of platform, it is used for creating the newly application system that is cutover through speech platform. Automatic Speech Recognition (ASR) has considerable and bright future, while more and more Information Technology has been used in our daily life. And as a hot domain, ASR based on SALT also will be popular everywhere. The technology in our development of the Web, you can provide us with a brand-new ideas to solve, "the SALT WEB-based voice recognition technology applied research" is the realization of our examples of this new technology to study and practice of good Study, application, testing, improving and even improve the process. In this study of the subject, I have primarily responsible for WEB-based speech recognition features and can operate with voice commands to complete certain basic functions of the voice response system platform the realization of the need to SALT technology in ASP.NET pages of the service system.Major work is as follows: （1）I studied classical HMM algorithm and other algorithms, analysis the merits of its algorithm. （2）With a focus on technology of SALT (Speech Applications Language Tags) that SALT forum will publish recently, this essay brings up the total structure of Automatic Speech Recognition(ASR) system based on SALT, and expounds the theory scheme and methods of realization. An Automatic Speech Recognition (ASR) example system has been developed based on the actual circumstances at small- and medium-sized enterprises, which has provided a set of software for small- and medium-sized enterprises that conforms to practice and suits the demand in customer service. The essay achieves the ASR development based on SALT, and finished the long-distance arrangement, brings a reliable base for the coming work in the next round. （3）This system environment include: Operator System of Windows XPand the development tools of the Microsoft Visual C#.NET, ASP.NET, ADO.NET, and so on. The version of SALT1.1 final is the subjective software tool which is used to develop the speech interface of the web system. KEY WORD: Web，Speech Recognize, SALT, Programming, ASP. NET 目录第一章　绪论 1 1.1 研究背景 1 1.2 研究现状 2 1.3 研究内容 4 1.4 全文的组织安排 5 第2章语音识别技术 6 2.1语音识别的原理 6 2.2 语音识别的基本算法 9 概述 9 模型的结构 12 前向和后向算法 14 算法 15 算法 16 2.3 Internet中语音识别的应用 17 2.4本章小结 18 第3章基于WEB SALT语音识别 19 3.1 SALT技术 19 技术知识分析 19 技术的优越性 22 3.2 基于WEB SALT语音识别的体系结构 23 体系结构 23 开发流程 25 3.3 基于Web Salt语音识别的算法分析 27 3.4本章小结 29 第四章基于WEB SALT 语音识别系统的设计与实现 30 4.1系统功能分析 30 4.2系统总体模块划分 30 4.3使用技术及方法 31 面向对象的技术 31 并行工程设计 32 采用VS. NET平台及B/S结构技术 32 系统开发环境及运行环境的选择 33 开发平台和Web服务 33 开发工具和语言 34 运行环境 35 4.4系统接口设计 35 用户界面设计 35 接口应用设计 36 4.5系统实现 36 设计模式的应用 36 应用程序的详细设计 37 语音识别系统语法(Grammer)设计 39 语音识别系统的功能设计 40 4.6 系统运行及特点 41 4.7运行测试评价 42 测试环境 42 运行测试 42 测试结果分析 45 测试结论 46 4．8 本章小结 47 第五章　总论和展望 48 5.1结论 48 5.2　进一步研究工作 49 5.3本章小结 49 参考文献 50 致谢 54 第一章　绪论 1.1 研究背景在现代社会中，人们逐渐习惯借助计算机来完成各项事务。在这种形势下，如何让计算机智能化地与人通信，使人机交互更加自然方便成为现代计算机科学的一个重要的研究课题。语音是人际交流的最习惯、最自然的方式，它将成为人机交互方式的理想选择。让机器能听会说，是人类由来已久的理想。语音技术主要包括语音合成技术和语音识别技术。语音合成技术解决机器说的问题，语音识别技术解决机器听的问题。设计和开发的应用实例或系统是语音技术商业化、社会化的重要手段，语音技术的应用在当今社会有着重要的意义。首先政府开通的咨询热线、咨询服务业对于语音技术的应用期待己久。语音识别技术和语音合成技术，再加上数据库共同组成咨询服务业务的解决方案。呼叫中心必须迅速地走上机器智能应答和记录的道路，否则，呼叫中心只能变成为一个美丽而不实际的神话，24小时的热线服务，不均匀的问讯量峰谷，日益增高的工资成本，坐席人员的培训与流失，很快就会使政府、企业不堪其负。机器的语音应答，白动的问讯和需求记录，将大幅度降低呼叫中心的投资及其运转成本，将会受到各级政府、广大中小企业的欢迎。其次，语音自然交互更具有其它信息终端不具备的优势，利用自然语音交互技术，用户不再需要一项一项的填写Web的Form表单，不再需要痛苦的在小小的键盘上换着数字输入名字和E-mail地址。基于关键字捕捉和自然语言处理技术，用户进入个人界面后可以轻松的说一句:“旅游信息，杭州”，相应地计算机回应“杭州”的有关信息，一切轻松自然而又随意。再次，国际上衡量一个国家的咨询服务业发展程度有一个参考值，即信息咨询产值与电子产品工业产值的比率，这个比值在欧美日的平均水平是1: 1强，而中国的这个比值是不到9%，香港、新加坡的平均水平是中国大陆的4倍左右。最后，广阔的市场前景。美国的著名咨询企业安达信公司曾报告指出，按照中国的市场化发展速度看，到2021年中国的信息咨询业将达到100亿美元，即1000亿人民币左右的规模。这还不包括各级政府、大中小企业自建的咨询服务热线，中国互联网中心也预计语音产品及其咨询业规模将达到1300亿元。 1.2 研究现状语音识别(Automatic Speech Recognition, ASR)的研究工作起始于上个世纪50年代，1952年贝尔实验室的Davis, Biddulph和Balashek建立了一个与说话人有关的孤立英文数字语音识别系统[1，3]。在说话人和麦克风距离保持不变的情况下，该系统正确识别率达到了98 % 。1959年，美国Lincoln实验室的Rorgie和Forgie[3]首次采用数字计算机识别英文的元音和以摩擦音开头的孤立字，这标志着计算机语音识别时代的开始。 60年代末70年代初，一系列里程碑似的基础性突破为语音识别的发展奠定了基础。在语音学方面，瑞典通信工程师Fant发表了著名的博士论文《语音产生的声学理论》。在信号处理方面，线性预测编码(Linear Prediction Coding, LPC)技术在70年代被日本学者Itakura[5]成功地应用于语音识别，使语音信号的特征提取有了一次飞跃。前苏联科学家Vintsyuk60年代将动态规划应用于模式识别，成为语音识别方法的重要基础。日本学者Sakoe和Chiba[6]提出了动态时间归整(Dynamic Time Warping DTW)技术用来解决语音识别中不等长语音的对整问题。语音信号线性预测编码技术和动态时间归整技术，结合模板匹配原理，有效地解决了特定人、小词汇表的孤立词语音识别问题。美国于70年代实施了美国国防高级研究项目计划(US Defence Advanced Research Program Agency,DARPR)，对语音识别研究给予很大支持，DARPA采用有多个说话人发音的1000词的语料库，作为参加DARPR计划的大学和公司研发的语音识别系统的性能评估语料库。 80年代以后，语音识别的任务开始由特定人孤立词语音识别转向非特定人、中等词汇量的连续语音识别，识别的方法也逐渐从模板匹配方法转变到统计模型方法。以隐马尔可夫模型典型代表的统计方法，由于其在参数、结构和训练方法的选择上有很大的灵活性，逐渐成为语音识别技术的主流。HMM的理论基础在1970年前后由Baum等人建立起来，随后由CMU的Baker和IBM的Jelinek等人应用于语音识别之中，HMM模型的广泛应用归功于AT&T Bell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化，使世界各国从事语音处理的的研究者所了解和熟悉，进而成为公认的一个研究热点。人工神经网络(ANN) [7，8]在语音识别中的应用研究的也在这一时期兴起。在此期间，美国国防部的DARPA计划对语音识别研究起了巨大的推动作用，当时DARPA的相应评估语料库为100个带不同方言的说话者、词汇量为一千的Resource Management(RM)语料库，参加DARPA计划评测的各研究机构都推出了各种识别系统，如Carnegie-Mellon大学用VQ/HMM的方法实现了SPHINX系统，这是第一个高性能的非特定人、大词汇量连续语音识别系统。Bell实验室以Rabiner为首的小组对英语数字串识别作了大量的研究，成为小词表语音识别的典范。 90年代语音识别转向大规模、非特定人自然语言的识别。1993年，DARPA采用华尔街杂志语料库(Wall Street Journal Corpus) [9]进行语音识别系统评估，该语料库包含两万个词汇。另外还有Switchboard语料库，它是个含有2.6万个词汇的自然交谈语音数据库。1998年，DARPR用广播新闻语料作评估，这些语料来自英语电台和电视新闻节目录音，背景噪声、说话人口音和失真等情况复杂，因此识别难度大。其中低噪声部分评测结果剑桥大学的HTK[10,11]系统正确识别率最高，字错误率为7.8%，自然发音部分法国国家实验室的LIMSI正确识别率最高，字错误率为14.4%。美国国家标准和技术协会(National Institute of Standards and Technology ,NIST)最近的语音识别系统评测是2001年的交谈语音识别，共有8个语音识别系统参加评测，其中剑桥大学的HTK系统正确识别率最高，三个测试集的字错误率分别为19.8%, 24.5%, 29.2%。这次评测还有中文系统的评比，评测语料库为20个Call home语料库的对话，只有BBN公司参加，字错误率为49.9%，而BBN公司系统的英文识别率测试为第三名，可见汉语识别难度比英文识别难度大得多。目前语音识别已经达到了一个相对高的水平，在稳健语音识别、自适应等方面也取得了丰硕的成果，正在从试验室研究中走出来，进入了一个实用化的阶段。语音识别研究水平的最重要的标志之一是非特定人大词汇量连续语音识别的性能[12]。目前对于理想环境下的语音数据，英国Cambridge大学的HTK系统的误识率已达到5%以下:对于广播语音，Cambridge大学的HTK系统正确误识率达到16.2%;而对于大词汇量的语音的识别，美国Carneigie-Mellon大学的系统词误识率为45.1%。这些系统代表着目前语音识别的最高水平。小词汇表语音系统也具有广泛的应用价值，英语数字语音识别的串识别率己达到99%以上;而具有高混淆度的英语字母的识别率也达到了97%以上。互联网和移动通讯技术的成熟给语音识别技术的发展和应用带来新的契机。IBM, Lucent, Motorola和AT&T四家公司于2000年用于语音浏览Internet的标记语言VoiceXML，现己被W3C组织接受为国际工业标准，在这个标准确立之后，许多厂家相继推出语音门户网站[13,14]。这样人们就可以通过来上网，利用语音来代替键盘输入。国内的语音识别研究开始于七十年代，从1987年起国家863智能计算机主题专家组为语音识别立项，经过二十余年的发展，汉语语音识别也获得了丰富的成果。越来越多的大学、科研院所加入到语音识别的研究中，比较著名的有清华大学电子工程系、计算机系、中科院自动化所、中科院声学所、北京航空航天大学、北京邮电大学、西部工业大学、哈尔滨工业大学、复旦大学等等。1998年的863测试评比中，清华大学电子工程系以王作英教授为首的课题组完成的汉语连续语音识别系统的字识别率达到90%以上，代表了目前国内的先进水平，在汉语小词表语音识别及应用方面，清华大学电子工程系以刘润生教授为首的课题组已推出了基于非特定人汉语数码语音识别的语音拨号机，并在从事语音识别专用芯片的设计研究[17,18]。现在，不依赖对象、大词汇量、连续语音识别的已经成为研究重点和热点，人们已经向语音识别领域中最难的课题发起了挑战。语音识别的终极目标就是同时解决语音识别中的这些难点。语音识别有多种任务，在语音打字这一类任务中，要求识别器正确无误地将口述语一言逐词逐句地转换为书面文字。在问讯、查询和控制系统中，需要对用户的要求做出正确相应、而用户在说话中常常带有嗯、啊等语气词和一些不必要的添加话语，这时语音识别系统只需识别其中关键的词条即可，这称为关键词确认技术，其中多余的废话被弃不用，更深一层则需要了解话语的语义信息，这不但对于进一步处理是必要的，而且对改善语音识别效果也是很有用的。语音的识别效果与说话时背景噪声的强度以及说话者讲话的清楚程度密切相关。当识别器在安静的环境中工作时可以得到较好的效果，但是有的环境中存在强噪声(例如汽车、飞机、工厂等)或者存在多人同时说话的嘈杂环境，识别器必须也能适应这种情况。说话者的语音质量取决于本人口齿是否清楚，也取决于是否采取合作的态度，这往往不是识别器所能控制的。 1.3 研究内容由于SALT技术是一项新推出的技术，并且具有广阔的应用前景，该技术在我们进行Web开发中，可以为我们提供一种全新的解决思路，因此“基于WEB的SALT语音识别技术应用研究”实例的实现是我们对这一新技术进行研究和实践的很好的学习、应用、检验、改进，甚至提高的过程。本课题主要研究基于WEB具有语音识别功能并可以根据语音命令完成一定操作基本功能的语音应答平台系统的实现，需要将SALT技术应用于ASP.NET服务系统页面之中。此外，在理论分析、方案设计的基础上，利用SALT技术的特点以及与现有成熟的HTML, XHTML技术的融合性，提供给后续工作深入时可以利用的可扩展性，未来可以开发适用于中小企业的一套基于SALT的IVR系统，此种系统主要完成语音导航、信息咨询、信息查询、服务、服务、短信服务、E-mail服务、系统维护和统计报表等功能。 1.4 全文的组织安排根据研究的内容，本论文共分为六章：第一章绪论：阐述课题的研究背景和意义、国内外研究现状以及本论文所要从事的工作第二章语音识别技术：介绍语音识别的关键技术和算法，特别是近年来采用哪的识别算法，这些算法原理及各自的优点和缺点的分析第三章基于WEB SALT语音识别：介绍SALT技术，基于WEB SALT语音识别的体系结构和语音识别算法分析第四章基于WEB SALT语音识别系统的设计与实现第五章总结与展望第2章语音识别技术在研究和分析各种语音信号处理技术之前，必须了解有关语音识别的一些基本算法。为了对语音信号进行数字处理，我们需要建立一个能够精确描述语音产生过程和语音特征的基本算法，然后根据语音识别的算法建立一个既实用又便于分析的语音信号模型。 2.1语音识别的原理语音识别系统本质上属于模式识别的范畴。根据模式识别的原理，未知语音的模式与己知语音的参考模式逐一进行比较和分析，最佳匹配的参考模式被作为识别的结果[19]。图2-1就是根据模式识别匹配原理所构成的语音识别系统的一个原理框图：图2.1 语音识别系统的原理框图未知(待识别)语音经过话筒变换成电信号(即图中语音信号)后加在识别系统的输入端，首先要经过预处理，预处理包括反混叠失真滤波、预加重和端点检测。经过预处理后，语音信号的特征被提取出来。常用的特征包括：短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、倒谱、共振峰等。根据实际需要选择语音特征参数，这些特征参数的时间序列便构成了待识别语音的模式，将其与已经存储在计算机内的参考模式逐一进行比较(模式匹配)，获得最佳匹配(由判决规则确定)的参考模式便是识别结果。参考模式是在系统使用前获得并存储起来的，为此，要输入一系列已知语音信号，提取它们的特征作为参考模式，这一过程称为训练过程。显然，最佳匹配结果的获得与特征的选择、语音模型的好坏、模板是否准确都有直接的关系，这也是目前语音识别过程中的一个难点。语音信号分析大致可以分为时域分析和频域分析[25，27]。时域分析的运算简单，物理意义明确，但效果不佳，频域分析虽然运算较为复杂，但是它对语音信号能够更有效的处理，所以大部分语音分析都以频域分析为主。在说话过程中，声道的形状是不断发生变化的，所以语音信号在总体上是一种非平稳过程。但由于声道的变化是相对缓慢的，我们可以认为它在短时间内不发生变化，所以我们又可以认为语音信号在短时间内是平稳的随机信号。由此就产生了许多语音信号的短时分析和处理方法。语音信号分析又可以分为参数分析和非参数分析。参数分析法根据语音信号产生的模型(如声管模型、共振峰模型等等)的理论，来分析和提取表征这些模型的特征参数，而把不用模型化方法进行分析的方法都称之为非参数法。非参数分析法包括时域分析法、频域分析法和同态分析法。倒谱参数是对语音信号进行同态分析的结果。图2.2 语音信息的编码和解码在语音识别系统中，通常假定语音是一种经过编码的信息流，如图2-2所示。在对语音信号作分析和处理之前，必须先进行信号的预处理，它应包括电压放大、增益控制、反混淆滤波、模数变换、预加重等。在需要语音输出的场合，还要进行数模变换和起平滑作用的模拟低通滤波器。具有良好的频谱特性的传声器是保证语音输入质量的基础。反混淆滤波器通常是带通滤波器，采用带通滤波器而不用低通滤波器的原因是为了排除工频干扰(50HZ或60HZ)，而带通滤波器的高端截止频率由采样频率决定。根据采样定理，采样频率为f时，不引起混淆的信号最高频率不得超过f/2，这也就是带通滤波器的高端截止频率[20,21,21]。作为预处理的另一部分是在A/D变换后加一个6dB/倍频程的提升高频特性的预加重数字滤波器。语音信号的平均功率谱受声门激励(12dB/倍频程跌落)和口鼻辐射(6dB/倍频程上升)的影响，总效果大约在200Hz到5000Hz按6dB/倍频程跌落。预加重的目的就是要提升高频部分，使语音信号的频谱变得平坦，以抵消浊音语音中由于声门波引起的频谱幅度下跌，便于以后进行的频域分析或声道参数分析。预加重数字滤波器一般是一阶FIR滤波器。语音信号本身的各种特点决定了语音识别的复杂性和艰巨性。这些特点包括语音的差异性，动态性，以及发音的连贯性等。语音的差异性可分为好多种。有生理因素的作用，如声道长度、鼻腔形状等。对同一个字，男性与女性、成人与儿童的发音就不相同；有环境因素的作用，如传感器的位置和特性；也有社会因素的作用，如各地域的方言和语言习惯等；另外还受说话人心情的影响，一个人在喜怒哀乐不同情绪下，对同一个字的发音也会有所不同。此外，语言学因素的影响亦会造成发音的变化。比如语言的上下文不同，造成的连续说话时的协同发音现象[23,24]。语音的动态性就是语音信号的非平稳随机性，语音信息除了由音段和超音段两种形式表征外，语音信号随时间变化的动态特性也携带了大量的区分信息。对于许多音位来说，其动态变化对语音感知的作用比静态部分更为重要。特别是辅音音位，构成辅音音位的特点是阻碍和动态，任何稳定的孤立的分析都不能描述辅音的全貌，而语音中的短时爆发音素(5ms左右)常常在分帧分析时又的不到足够的体现。发音的连贯性是指在连续发音中，从一个音位过渡到下一个音位时是连续的、平滑的，它们之间是模糊的，没有明显的分界线，从一个字结束到下一个字开始也没有明显的停顿。这必然造成音与音，字与字，词与词之间的分割困难。例如协同发音引起的参数会增加很多麻烦。因此，连续语音识别系统同孤立音节识别系统所面对的是截然不同的情况，它所要处理的问题要复杂得多，所遇到的困难也要大得多。由此可见，语音识别是一项非常艰巨的任务，要想达到最终的目标，实现真正的人机对话，还有以下几个方面的难题需要解决。首先，一个实用的语音识别系统应具有良好的抗噪性、可移植性和适应性，即可以适用于不同的噪声环境，易于移植以适用不同的应用，并能对外界变化自适应(新的话者、环境、麦克风等等)。其次，现有的系统大都采用统计语言模型，但人是通过理解而听懂的，况且遇到词表外的词汇时，系统也应能正确识别。另外，一个好的语音识别系统应能够接受自然的语音输入，并且应能利用韵律信息来提高识别率。人们说话的语调、声调、重音、节奏，乃至情感，都能表达不同的意思。这方面的工作还有很多要做，许多问题现在尚无答案。此外，人们对字和音索的感知还需要能反映发音器官运动的特征，通常这类特征是动态的。如何描述这种动态，并将它同现有的特征参数结合到识别系统中，仍是一个没有解决的问题。以上所说的各种对语音信号有影响的因素，主要是在声学特性方面，而在语言模型和语言理解方面，语音识别就面临着更大的挑战。人们对于自身如何听懂别人说话的过程，尤其是对大脑对于语言理解的过程知之甚少。虽然人工智能对于大脑智能的某些方面有了较好地描述，但实际上最近几十年在语言理解方面，人工智能并没有突破性的进展。语音识别开始是应用人工智能中基于规则的、受限文法的语言模型，但其不能适应语言中干变万化的表达形式，而没有被人们广泛采用。取而代之的是基于统计的语言模型，并取得了较好的效果。但是很显然基于统计的方法同样不能很好地描述语言的行为规律，它只是人们在找不到更好的解决方法之前的权宜之计，它所能带来的最好性能远远不能满足人们的需要。所以在某种程度上可以说，目前影响语音识别发展最主要的瓶颈不在声学模型，而在语言模型。而且一旦在这一方面出现重大突破，那么与此相关的语义理解、机器翻译等领域都会有突飞猛进的发展。 2.2 语音识别的基本算法概述隐马尔可夫模型[25,26]（Hidden Markov Models，简称HMM）作为语音依赖的一种统计模型，今天正在语音处理各个领域中获得广泛的应用。自从1980年Baum和Babiner既等人提出HMM方法以来的20多年时间里，人们对HMM用于语音识别的研究从没有停止过，并使HMM得到了很大的发展，如提出了半连续密度HMM模型、连续密度HMM模型以及训练和识别时使用的各种准则。由于HMM有一个有效的学习算法及解码算法，今天，HMM方法是语音识别中最有效、应用最为广泛的方法，HMM的一些传统缺点也通过不断的改进得以克服，这方面的成功是显著的。最早用在语音识别中的声学匹配算法[27]是基于传统模式识别理论的模板匹配法，如规则匹配法、基于时域、频域二元特征的表格匹配法等。该方法在20世纪的50年代末到60年代中期十分盛行，而且各种模板匹配算法也层出不穷，但是由于语音信号的随机性很大，即使同一个人在同一语境中发的同—个音，在不同时刻也不可能具有相同的时长，所以利用模扳匹配法无法取得令人满意的识别结果。这正是Pierce在l969年给JASA编辑的信中(Wither Speech Recognition)严厉批评当时语音识别技术粗劣的原因。到了20世纪70年代，Sakoe，Chiba等人首先将运筹学中的动态规划技术(Dynamic Programming)引入到语音识别中，真正解决了输入语音特征矢量序列与参考模板之间的时间对正和匹配问题。1976年，他们又对此技术进行了优化，设计实现了一个以LPC系数为特征的语音识别系统，并获得了较好的识别结果。当时Sakoe等使用的技术正是我们今天所称的DTW技术(Dynamic Time Warping)。可以说DTW技术的出现是语音识别的一个里程碑，它使语音识别技术空前活跃起来。同一时期，其它技术也纷至沓来，为语音识别注入了活力。同时，矢量量化技术也在语音识别中得到了广泛的应用，如有限状态矢量量化FSVQ(Finite State Vector Quantization)[28]，自适应矢量量化AVQ(Adaptation VQ) [29]，矢量预测量化VPQ(Vector Pediction Quantization) [30]等。 20世纪60年代末和70年代初，Baum和他的同事在Markov模型理论方面做了相当多的工作，为基于HMM的语音识别方法奠定了基础。70年代，Baker，Jelinek等人首先将基于HMM的统计方法用于语音识别中，其中Bakrt利用HMM来描述声学序列，而Jelinek用它来描述语言序列。HMM在语音识别中的应用可以说开创了语音识别技术发展中的第二个里程碑。但在当时，HMM技术并不被大多数人所理解，其主要原因是：①最早的有关HMM的文章主要刊登在一些数学期刊中，而从事语音识别的工程人员很少阅读这些期刊；②在当时，缺乏全面介绍HMM技术的综述性文章。直到20世纪80年代，Rabiner的一篇“A Tutorial on Hidden Markov Models and Selected Application in Speech Recognition”才使众多的语音识别研究人员真正理解了HMM的内涵。从20世纪80年代中期至现在，在短短的20年中，HMM无论是从理论上还是从技术上，都取得了重大进步，并成了语音识别的主流算法。X.Huang提出了半连续HMM模型(SCHMM) [31,32,33]，B．Juang，L．Rabinar等在保正训练过程收敛的条件下，将连续密度HMM中密度函数的约束由对数凹(Logarithmic Concavity)扩展到椭圆对称(Elliptical Symmetry)，并提出了基于高斯混合密度的HMM模型，扩充了密度函数选择的自由度。P．Brown等在深入分析了基于最大似然准则(Maximum Liklihood)训练HMM模型参数理论上的不足后，提出了基于最大互信息准则(Maximum Mutual Informat

展开阅读全文