收藏 分销(赏)

人机交互:第4章 人机交互技术--6.ppt

上传人:可**** 文档编号:10290124 上传时间:2025-05-16 格式:PPT 页数:44 大小:445KB
下载 相关 举报
人机交互:第4章 人机交互技术--6.ppt_第1页
第1页 / 共44页
人机交互:第4章 人机交互技术--6.ppt_第2页
第2页 / 共44页
点击查看更多>>
资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第,4,章 人机主要交互技术,(,新一代人机交互技术,),人机交互中的语音输入,语音输入是将声音通过,话筒,+,声卡,转换成文字的一种输入方法,其关键技术是语音识别。,语音识别是语音输入的核心技术,计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令。,人机交互中的语音输入,目前语音输入产品大多数采用,IBM,开发的,ViaVoice,,尽管这种输入方法受口音等因素限制识别率还不是很高,但由于其使用方便、输入速度快,受许多用户欢迎。它的平均输入速度可达每分钟,150,字,识别率达到,95%,。系统定义词汇达,32,000,个,用户还可根据需要添加,28,000,个专业术语。,语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于,98,,对特定人语音识别系统的识别精度就更高。,语音识别的发展,初期(,1971,年之前),产生对后期研究有较大影响的三项技术,1,、动态时间规整,(DTW),在匹配过程中,采用参考样本和测试样本的响应部分在时间上对齐的方法,借助动态规划和选择恰当的规整函数,可以使参考样本和测试样本得到更好的匹配,从而使识别率达幅度提高,这种方法在,1968,年首先用于语音识别。,2,、线性预测技术(,LPC,:,Linear Prediction Coefficients,),基本概念就是一个语音抽样可以用过去若干个语音抽样的线性组合来逼近。,通过使实际语音抽样和线性预测抽样间的误差最小,确定唯一一组预测参数,LPC,。,Levinson-Durbin,算法。,3,、隐马尔可夫模型(,HMM,),采用隐马尔可夫模型进行语音识别,实质上是一种概率运算。设待识别语音信号为,A,,符号串集为,Wi,(,i=1,,,2,,,N,)则,P,(,Wi/A,)为在已知条件下,,Wi,的条件概率。分别计算,Wi,的条件概率,取最大值为识别结果。,由于马尔科夫过程各状态间的转移概率和每个状态下的输出都是随机的,故这种模型更能适应语音发音的各种微妙的变化,使用起来要比模板匹配灵活得多。,Baum-Welch,算法,Viterbi,算法,Forward-Backward,算法,中期(,1971,年,1987,年),这个时期也可以说是,DARPA,第一次语音识别系统研制计划。,一、研制计划主要围绕几个实用系统进行,1,、,CMU,:,HEARSAY,一代和二代,根据用户的语音请求,对新闻进行检索;,2,、,BBN,公司:,SPEECHLIS,系统,用于旅游经费预算管理;,3,、,SDC,(系统开发公司):用自然语言和机器进行交互问答的潜艇数据库管理系统。,二、上述系统的特点,1,、连续语音识别,甚至扩展为语言理解;,2,、说话者的范围扩展:单一特定话者,多个特定话者,非特定话者等;,3,、词汇量大幅度增加,一般大于,1000,单词;,4,、硬件环境高,几乎调动了当时最先进的技术手段和大型计算机系统。,三、研制结果,1,、识别率低,大概为,50%,左右;,2,、相应时间过长,是实时时间的,9174,倍;,3,、条件过于苛刻;,4,、设备庞大复杂;,5,、代价过高,无法继续进行;,6,、由于各个系统的任务、功能、使用条件等都不相同,缺乏可比条件,无法知道各种技术方案的优劣,可行性无法定夺。,四、技术成就,矢量化技术,所谓矢量量化就是用一个标号来代替一个多维矢量。该技术在,50,年代的声码器中就已经提出,,70,年代引入到语音识别中来。,LBG,算法,近期(,1985,年,),1,、,研究计划,:,DARPA,第二次语音研制计划,研制内容,“,非特定人大词汇量连续语音识别,”,,计划,4,年完成。这次计划对上次研制过程中的诸多问题提出了解决要求。,2,、,技术成就,:,神经元网络模型在语音识别中的应用。,3,、,研制结果,:,以,IBM Viavoice,为代表的大量商用化语音识别系统开始涌现。它的平均输入速度可达每分钟,150,字,识别率达到,95%,。系统定义词汇达,32,000,个,用户还可根据需要添加,28,000,个专业术语。,近期(,1985,年,),国内情况,:,国内开展语音识别研究比较早的机构有北京大学、中科院声学所、中科院自动化所、清华大学、北方交通大学等,先后被列为国家自然科学基金重点项目、,863,智能处理项目,.,没有太大成果,近期动向,语音识别类型,语音识别类型,1,孤立词语音识别,连接词语音识别,连续语音识别,关键词语音识别,语音识别类型,2,特定人语音识别,非特定人语音识别,语音识别类型,3,小词汇量语音识别,(,几十,),中词汇量语音识别,(,几百到上千,),大词汇量语音识别,(,几千到几万,),影响语音识别的因素,1,、词汇量的大小,2,、环境因素,3,、与说话者的相关性,说话者本身有一些可变因素,比如生理或者情绪状态,说话的速度,话音质量等等。,社会语言背景,方言,以及声带大小与形状也会带来说话者之间的可变因素,。,语音识别的方法可归纳为三种:,基于,声学和语音学,的方法,、,人工神经网络方法、模板匹配方法。,模板匹配的方法发展比较成熟,,包括动态时间规整,(DTW),、,矢量量化,(VQ),、,隐马尔可夫法,(HMM);,人工神经网络等方法目前仍处于实验探索阶段,。,语音识别方法,语音识别方法,一、基于声学和语音学的方法,1,、理论基础,-,声学和语音学,声学和语音学认为在有声语言中存在有限的、可区分的、由一定特性来刻画的语音单元,这些特性在随时间变化的语音信号或波谱中比较明显。,这是一种基于声道模型和语音知识的方法。,语音识别方法,2,、识别步骤,(,1,)语音分析:目的是对随时间变化的语音信号特征提供一种合适的波谱表示;最常用的方法是,LPC,。,(,2,)特征提取:将对语音的波谱描述转换为一组描述不同语音单元的声学特征,包括鼻音、摩擦音、共振峰位置、浊音、轻音等。,(,3,)分段和标志:寻找特征属性比较稳定的区域,并用相应的语音单元对该区域进行标志。,(,4,)对分段和标志结果进行调整。,(,5,)语音输出。,语音识别方法,3,、声学和语音学方法的一些不足之处,这种方法,起步较早,在语音识别技术提出的开始,就有了这方面的研究,,研究了近,40,年,但在实际中一直比较失败,原因如下:,(,1,)需要对语音单元的声学特性有相当的了解,其模型及语音知识过于复杂,;,(,2,)特征的选择一般情况下是基于直觉,而不是基于公式化的定义;,(,3,)声音分类的设计并不是最佳的;,(,4,)调整方案并不为语言学家广泛接受。,语音识别方法,二、,人工神经网络方法,利用人工神经网络的方法是,80,年代末期提出的一种新的语音识别方法 人工神经网络,(ANN),本质上是一个自适应非线性动力学系统目前仍处于实验探索阶段,语音识别方法,1,、人工神经网络方法工作步骤,(,1,)语音分析:,(,2,)模式训练:,(,3,)模式分类:,语音识别方法,2,、,人工神经网络方法,的优缺点,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性在结构和算法上都显示出实力 但由于存在训练、识别时间太长的缺点,,三、模式匹配方法,(,1,),语音分析,:目标是产生一系列,“,特征(模式),”,,便于后续的训练和匹配;,(,2,),模式训练,:由多个对应于一类语音信号的相应特征来产生代表这类语音信号的模式,通常称其为参考模式,是这类语音信号的统计结果;,(,3,),模式匹配,:将待识别的模式和参考模型进行比较,计算出它们之间的相似值;,(,4,),决策逻辑,:通过判断与参考模式之间的相似值来决定哪种模式为最佳选择;,预处理,特征提取,参考模板,/,模型,模式,/,模型匹配,判决,语 音 输 入,识 别 结 果,语音识别系统模型,训练,训练调整,语言模型,语音库,专家知识库,失真测度估计,预处理,:,输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等。,特征提取,:,对预处理后的语音信号进行特征参数分析,从语音信号中提取语音的特征。,识别参数的选择有很多种,要视系统的具体要求而定。,一般来说,如果参数中包含的信息越多,则分析或提取的复杂度也越大。,可供选择的识别参数,1),平均能量,/,幅度,(,或功率,),;,2),过零率;,3),邻界带特征矢量;,4)LPC,预测系数特征矢量;,5)LPC,倒谱特征矢量;,6)Mel,倒谱,MFCC,参数;,7),线谱对,LSP,特征矢量;,8),前三个共振峰,F1,、,F2,、,F3,:,9),滤波器组输出,(,计算量较小,),10),偏自相关系数,(PARCOR,系数,),其它,ASCC,、,PLP,、基音,、,音长、音调、声调等超音段信息函数。,语音库,/,声学参数模板,/,声学模型,:,语音库,/,声学模型通常由获取的,一,/,多人的多次重复,语音特征,参数,经过反复训练而聚类得到,,目的是为每个发音建立发音模板。,在识别时将输入的未知语音特征同声学模型,(,模式,),进行匹配与比较,计算未知语音的特征矢量序列和每个发音模板之间的距离,/,条件概率,得到最佳的识别结果。,声学模型的设计,声学模型的设计与语言发音特点密切相关,模型识别单元大小(词发音单元、字,/,音节发音单元、半音节,/,声韵母模型、音素模型)对语音训练数据量大小、语音识别率以及灵活性有较大的影响,。,建模技术,隐马尔科夫模型建模,隐马尔科夫模型,HMM,马尔可夫链:,状态与观察值,(,物理事件,),一一相对应。,隐马尔可夫模型,(HMM),:,双重随机过程,状态的转移:基本的马尔可夫链,状态与观察值之间的统计关系,存在概率分布,不是一一对应,特点:,状态是,隐含,的,观察者通过,观察值,分析,产生该输出时系统内部对应的可能状态序列,HMM,初始状态概率矢量,状态转移概率矩阵,A,观察概率矩阵,B,HMM,模型构成,HMM,的数学定义:,HMM,两个随机过程的数学描述:,马尔可夫链,由,、,A,描述,产生的输出为状态序列,另一个随机过程,由,B,描述,产生的输出为观察序列,HMM,解释:,HMM,三个基本问题:,隐马尔科夫模型,HMM,建模,语音识别中使用,HMM,通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的,HMM,,一个词就是构成词的多个音素的,HMM,串行起来构成的,HMM,,而连续语音识别的整个模型就是词和静音组合起来的,HMM,。,匹配,/,失真测度估计,:,语音识别的核心,用来表征参数与模板之间的测度。,常用的方法有:动态时间规整法,(DTW),、有限状态矢量量化法,(VQ),、隐马尔可夫模型法,(HMM),等。,用于语音识别的失真测度有多种,如欧氏距离及其变形的距离、似然比测度,/,条件概率、加权的超音段信息的识别测度等。,识别算法本身实质上是一种最优搜索过程,搜索算法可分为两类:,1,、深度优先算法,当精确的向前预测信息可以获的,深度优先算法具有计算量和存储量小的特点;,2,、宽度优先算法,具有帧同步计算的优点,但计算量比较大。,还有上述两种方法的结合,语言模型,/,专家知识库,:,用来存贮各种语言学知识。如汉语声调变调规则、音长分布规则、同音字判别规则、构词规则、语法规则、语义规则等。,对于不同的语言有不同的语言学专家知识库,对于汉语也有其特有的专家知识库。,语言建模的必要性,语言模型主要是提供字或词之间的上下文信息和语义信息,通过它可以消除字或词间的模糊性。,这是因为:一个大词汇量连续语音识别系统必须在某一时刻检测是否遇到语音的发音边界,这样,从不同分段的语音流中就会识别出许多不同的字或词。,语言模型,语言模型是描述自然语言内在规律的数学模型,它主要分为:,规则模型,:,传统文法型语言模型,基于语言学家提出的语言学文法,不能处理大规模真实文本,.,统计模型,:,概率模型,基于统计语言模型,估计自然语言每个句子出现的可能性,.,统计模型建模技术,统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律。,目前采用的最广泛的是隐马尔科夫模型,HMM,建模和上下文相关建模,,其中,N-Gram,模型简单有效,被广泛使用,。,目前比较成熟的方式是统计语言模型,通过对大量文本文件的统计,提取不同字、词之间先后发生的统计关系。,N,元文法语言模型,该模型主要根据已知前,N-1,个词,预测第,N,个词的发生概率。考虑到计算的复杂度,一般采用,N=2,3,4,的情况,通常称为,2,元文法、,3,元文法和,4,元文法模型。,注:对汉语来说由基于词和基于字的,N,元文法,而且通常词比字的文法更精确。,N,元文法语言模型的特点,1,、零概率问题,2,、对特定领域具有敏感性,其它语言模型,1,、词性语言模型,N-POS,一般词性分类包括动词、名词、形容词和副词分类等,它对上下文的约束力弱于,N,元文法模型。,2,、语义语言模型,根据词在句子中的语义,对其进行分类,相对于词或词性的统计来说属于不同种的信息源。,3,、决策树语言模型,4,、基于缓存的语言模型,5,、最大熵语言模型,6,、上下文无关语言模型,7,、混合语言模型,判决,/,语义理解,:,是系统识别效果的最终表现,通常通过语言模型来实现。对于属于信号计算而得的测度,根据若干准则及专家知识,判决选出可能的结果中最好的结果,由识别系统输出,。,对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。,最终判决将应用人工智能的方法,将多种知识源进行融合,并将结果用于问题的最终解决。常用的知识源如,:,(,1,)声学知识,(,2,)词法知识,(,3,)语法知识,(,4,)语义知识,(,5,)实际知识,语音识别系统评估指标,1,、识别正确率:,要有较好的实用价值,识别率应该大于,95%,2,、识别速度,实用化要求识别速度应该和口语的速度差不多,3,、系统的适应性和可扩展性,(,1,)适应口音的能力,(,2,)适应领域的广泛程度能力,(,3,)适应环境变化和使用者变化的能力,(,4,)系统本身的可扩充能力,4,、其它,如系统对计算机的要求,复杂性,性价比等,语音识别系统仍需进一步解决的问题,1,、,现在的语音识别系统对外界噪音的免疫力依然比较低,表现为在一定噪音环境下,识别率会明显降低;,2,、针对非特定人的语音识别系统还不能令人满意;,3,、方言是语音识别面临的一个非常现实的问题;,4,、,由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,四声等汉语本身特有的问题也有待解决,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服