1、 语音识别调查报告 10 2020年4月19日 文档仅供参考,不当之处,请联系改正。 语音识别 让计算机能听懂人的语言,是自计算机诞生以来人类便梦寐以求的,Intel创办人Gordon Moore曾说,语音技术是影响未来科技发展最关键的技术;IBM总裁Lou Gerstner指出,有朝一日,将有数十亿的人运用自然语言在Intern et上浏览、查询【’]。随着移动电话、掌上电脑、PDA等移动设备以及移动计算环境中各类智能设备的广泛应用,使用语音作为用户操作界面的要求越来越迫切,移动设备体积小,计算能力和存储空间有限,其使用场合又往往处于复杂、
2、多变的噪声环境中,使得基于这类设备的语音识别实用技术面临许多挑战。 如今语音识别的应用领域不断拓展,在军事、工业、家电、消费电子、交通等各方面都得到了广泛的应用。常见的应用有: (1>语音控制语音识别技术可实现这样的功能,利用声音来控制一台机器设备的运行。例如现在的智能家电,就能够经过语音控制其开关和其它功能的实现。语音控制一方面能够提高工作效率,另一方面也能够在人们手脚被占用的时候实现控制,解放人们的双手。 (2)语音输入利用语音识别技术,将人们的声音信号直接转换成相应的文字输入计算机系统,不但能够代替键盘使文字的输入工作更加省力和高效,同时也为那些不熟悉键盘输入
3、法的人们提供了一种新的文字输入途径。 (3)身份识别和指纹类似,人们的声纹也具有较强的排她性,因此能够利用语音识别来进行身份的识别和确认工作。 语音识别一般有广义和狭义之分。广义的语音识别指的是从语音信号中提取出任何人们感兴趣内容的技术,而我们一般所说的语音识别指的是狭义的语音识别,即从语音信号中提取出文本内容的技术。也就是经过算法,将语音转换成文本的过程[}2}根据识别的对象不同,语音识别大致分为3类:孤立词识别,连续语音识别,关键词识别。 其中孤立词识别是识别事先己知的孤立词,如“开始”、“结束”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或者一段话;连续
4、语音流中的关键词检测针正确也是连续语音,但它并不要求识别全部文字,而只是检测己知关键词在何处出现,如在一段话中检测“西安”、“中国”这两个词。根据语音识别系统所针正确发音人,能够将语音识别分为2类:特定人语音识别和非特定人语音识别。 其中前者只能识别特定的一个人或几个人的语音,而后者则能够被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比特定人的识别困难得多。另外,根据语音设备和通道,能够分为桌面CPC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使发音的声学特性产生变形,因此需要构造各自的识别系统。 虽然当前语音识别技术在实际应用中
5、取得了较好效果,但我们也应清醒的认识到其中存在的问题并对其进行深入的分析。当前国内外对语音识别技术研究存在的主要问题有: (1>标准输入的问题缺乏标准输入是当前语音识别面临的主要难题之一。因为语言、方言之间的差异, 因此很难确定一个标准的输入,导致实际使用时误识率过高,较难达到人们预期的效果。即使语言相同,我们每个人的发音习惯也不尽相同,这就导致了根据某些人的语音数据 设计出来的语音识别系统很难适应所有的使用者。因此当前绝大多数的语音识别系统在使用前,都需要使用者对其进行适应性训练,使其习惯自己的发音,以提高识别的正确率。另外,对语音识别的输入设备缺乏统一标准也是导致语音输入不标
6、准的重要方面。 因为当前的录音设备都是以人能听清,听懂为标准进行设计的,至于如何调整输入设备的各项参数,使其适应计算机识别的特点,让识别系统能够更好的分辨,对此我们还需要做大量的数据收集,分析和研究工作。 (2)环境噪声的问题环境噪声的干扰也是语音识别研究中一个不可回避的问题。在实际应用时,我们并不能保证识别系统始终处于一个安静的环境中工作。大多数的应用场景总是存在着环境噪声,且不同场景的噪声也各不相同。我们在语音识别系统开发时很难做到训练环境和真实环境的匹配,导致很多识别系统在实验室环境下识别效果很好,可是到了实际应用的场景,一旦遇到较强的环境噪声,识别的效果就大打折扣了。因此说
7、噪声环境中语音识别要比安静环境下困难很多。当前解决环境噪声干扰问题的途径主要有三个:一是在语音识别的前端,即语音输入环节,开发抗噪性能更好的语音输入设备,从源头上降低语音信号中的噪声分量;二是在对己经混入了噪声的语音信号进行特征提取时,选取抗噪性高的特征参数;三是在对语音识别系统进行训练时,充分考虑到噪声的干扰问题,进行针对性的训练以提高系统识别的鲁棒性。 (3)协同发音现象:人们在交流时很少一个字一个字的孤立发音,多数情况下都是按照自己的习惯连续发音,这时原本孤立的声学单元就会受到上下文的影响而发生模糊、变异。因此无论在语音识别系统中选取何种建模单元(词、音节、声韵母、音素),都需要对这
8、些单元之间的相互影响做细化处理,这样就会带来模型数目的剧增和训练数据的相对医乏。 语音信号处理是以语音学和数字信号处理为基础,涉及语言学、模式识别、机器学习、人工智能、信息论等领域的一门综合性学科,它主要包括四个部分:语音识别(Speech Recognition)、语音合成(Speech Synthesis)、语音编码(SpeechCoding)和语音分类(Speech Classification)}4]。语音识别是指机器从语音信号中提取语言信息,从而使机器能够有效地理解和执行发声者的各种意图,其目的是要让机器听懂人类口述的语言,“听懂’,有两层含义,其一是指将语音转换为文本,其二是指理
9、解语音包含的意义。一般所说的语音识别是指第一层含义,而第二层含义则属于语言理(LanguageUnderstanding)的范畴,让机器听懂我们的话语,是自动语音识别(Automatic Speech Recognition, ASR要研究的课题。ASR的最终目标是要将连续的语音自动地变换成文本字符,实现所谓的音字转换。在日常生活中,人们用数以万计的词语,组成连续的语句来进行交谈,在这种自然发音的语句中,由于协同发音以及语调、重音和抑扬顿挫等节律的影响,很多音素的声学特性跟单字念读时差别很大,这给ASR带来了许多挑战。 在语音识别方法中,当前占主导地位的是基于统计的模式识别方法〔川。
10、一段语音波形经过前端信号处理后能够得到一组特征序列。在给定观测序列Y的情况下识别系统采用最大后验概率准则决定输出词序列(2-1)其中,P(幼与词序列W无关,因此在式(2-1)中分母能够忽略,即 2-2式中,P(W)为语一言模型,表示特定词序列出现的先验概率,与观测语音信号无关;P(Y}W)为声学模型,表示给定词序列W情况下输出Y的概率,也就是给定声学模型输出Y的概率。如图所示,大词汇量连续语音识别系统是一般由语音信号处理、声学特征提取、声学模型、语言模型、解码器以及错误处理模块组成。从语音数据提取声学特征并输入到解码器,利用声学模型和语言模型,基于最大后验概率准则解码,并对解码输出进行错误处理
11、得到最终的识别结果 2-1 2-2 语音识别技术的新进展和应用语音识别技术,由于它所具有的巨大商业前景,世界上许多国家特别是发达国家都投入大量的人力物力进行研究和开发。日本文部省为此制定了投资六亿日元的优先支持项目旧本政府和企业界合作共同投资90亿日元发展自动电话翻译计划(ATR计划,1986 );作为庞大的第五代智能计算机计划的继续,日本还在1992 ^ 投资20亿日元开展一项名为真实世界的计算机研究计划;美国国防部高级研究计划局(ARPA)制定了目标明确— 0词特定人的可识别华尔街日报的系统和5000词的非特定人的航空定票系统的新研究计划,并支持数家单位同时开发,据报道当前的阶段
12、性结果非常好。中国在“863”计划中开展的大词汇最特定人语音识别研究的目标是五万词汇的系统。到当前为止,尽管实现大词汇最、非特定人连续语音识别系统的最终目标还未实现,可是围绕实现这个目标而作出的许多阶段性目标,如非特定人中小词汇最命令集语音识别系统,全音节汉语特定人识别系统和连续语音方式的中小规模的语音识别系统,这些目标也有它可资利用的环境。当前,计算机领域多媒体技术和产品发展很快,能够看到具有语音识别能力的多媒体产品将成为商业竞争中优先考虑的问题,当前具有命令识别能力的多媒体操作系统已经问世;具有语音识别能力的数据库系统将使计算机的应用普及达到一个新的高度;用语音识别取代鼠标和键盘作为主要的
13、输入手段,进行人机对话已经不再是天方夜谭;语音识别引入后的多媒体技术将给计算机技术带来一场革命。电话商业服务是当前发达国家普遍推行的服务方式之一,对基于电话线输入的语音信号的识别系统,可能优先获得一些用途。具有语音识别能力的电话汀票服务和具有语音识别能力的自动话务转换系统在国外已经有一定程度的应用,当然要使之广泛使用起来还尚需时日,但电话商业服务中使用语音识别技术的日子一定会到来。语音识别在工业上的用途可能更有意义。对于一些危险的场合或者是环境恶劣的地方,工业机器人被认为是最佳替身的现代化设备,能够设想,具有语音识别能力的工业机器人对工业现代化的重要性。 参考文献: 《面向嵌入式计算平台的自动语音识别关键技术研究》赵欢 《语音识别关键技术及其改进算法研究》刘方 《语音识别中的后处理技术研究》吴斌 《语音识别技术及应用前景》袁保宗 等






