第12讲-基于声卡的语言识别系统.ppt

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,基于声卡的语音识别系统,系统简介,功能：,在经过密码校验后可以进行密语录制,进行待测者的语音录制（多次）,待测者声音与密语进行语音匹配,连续,2,次语音匹配成功,系统就认定成功,避免恶意试音，当试音失败超过,10,次系统就锁死。,前面板操作说明,1.,在输入正确密码后点击声音采集按钮，绿灯亮进行,“,密语”的录制。如果密码错误红灯亮，并且无法录制密语。,2.,点击语音识别按钮，将录制待测者的声音。,3.,当待测者声音录制完后，自动与录制的,“,密语,”,进行匹配。,匹配成功，清,0,失败次数。成功次数加,1,，连续,2,次成功，系统认定成功。,匹配失败，清,0,成功次数。失败次数,+1,。,10,次后系统自动锁死。,原理,声音信号转成功率谱后出现的明显特性曲线（,0-3500HZ),同一人,2,次说“开门”产生的,2,条特性曲线,把,2,次采集到的声音转成,2,个特性曲线（,0-520HZ),计算,2,个特性曲线相似度,高于设定相似度则“匹配”，低于设定相似度则“不匹配”,密码正确,情况下进行,密语的采集,进行待测者,声音的采集,通过数学方法匹,配待测声音与密语,匹配成功,成功次数,+1,清,0,失败次数,匹配失败,失败次数,+1,清,0,成功次数,成功次数,大于,2,次,失败次数小,于,10,次,成功次数,小于,2,次,失败次数大,于,10,次,系统,认定成功,系统,认定失败,系统,认定失败,系统,锁死,关键点与难点,1.,声音信号的声音特性的采取与转换。,（声音采集信号,声音波形,功率谱,选,0-520HZ,）,2.,两波形相似度的计算。,（提取两波形的特性参数存于数组（,1,个波形,2,个数组）,数学方法对数组进行处理,计算出相似度）,一个声音波形信号转成,2,个数组,1.,每,20HZ,分成一段，将每段出现波峰时所对应的频率值的均值组成一个数组（如果没有波峰出现则置,0),。,作用：通过,2,个波形对应的数组异或可以判断,2,个波形在每段有没相同的波峰出现。,2.,每,20HZ,分成一段，将每段的幅值,(Y),的均值组成一个数组。,把,2,个数据差值所占最大值的百分比算出来（大于百分,75,算不匹配）,作用：减少波峰位置匹配时出现的误差（第一种方法）,声音采集和训练识别,“说话人识别”的基本原理主要包括两阶段：训练和识别。,在训练阶段，系统的每个使用者说出若干个训练语句，系统据此建立每个使用者的模板和模板参数。,在识别阶段，待识人的语音特征提取后与系统训练时产生的模板或模板参数进行比较。,在说话人确认中，通过判断测试音与所生成的说话人的模型的匹配距离是否小于一定阈值做出判断。,模型训练,特征提取,匹配距离,模型参数,判决策略,输入语音,识别结果,语音识别的机理,“说话人”的识别方法有两种：,发音内容依存型：是预先确定识别用语的方法。,发音内容独立型：是无论讲什么话都可进行识别的方法。,从声音中准确提取和分离个人信息是相当困难的。至今还没有建立起准确分离和提取个人特征的技术。当前的状况是说话人识别多采用,固定声音内容的方法,来提高识别率。,多年来，人们对于,特征参数,在说话人识别系统中,的有效性,进行大量的验证和研究，得到许多有意义的结果。,声音可以理解成由振幅和相位随时间缓慢变化的正弦波构成。人的听觉对声音的感觉特征主要包含在,振幅信息,中，,相位信息一般不起作用,。在研究声音的性质时，往往把时域信息（波形图）变换得到它的频域信息（频谱），,通过研究频谱和与频谱相关联的特征获得声音的特性,。,语音识别的假设,语音信号是一种典型的非平稳信号，但是由于语音的形成过程是与语音器官的运动密切相关的。这种物理运动比起声音振动速度要缓慢的多。因此，,语音信号常常可以假定为短时平稳的,。,在,1030ms,这样的时间段内，其频谱特性和某些物理特征参量可近似地看作是不变的。,这样我们可以采用,平稳的分析方法,来处理。,语音识别的假设,我们的设计建立在如下几点假设基础之上：,将原始的声音信号转换成数字信号的过程对声音的特征造成的影响可以忽略。,录音设备和外界环境对声音信号的影响可以忽略。,声音特征基本反映在振幅信息中。,从时域变换到频域后，语音特征体现在它的频谱中，忽略频谱失真。,语音信号是短时平稳的。,本系统设计思路,本系统模型采用的是,声音内容依存型,的说话人确认系统，需要先让系统对使用者说某个特定词的语音信号进行,“学习”,。该特定词就成为系统确认通过的“密语”。也就是说想让系统确认通过，首先需要知道这个“密语”。,本系统中我们把这个“密语”设定为汉语的“开门”一词。当然这个“密语”是可以改变的。,本系统设计步骤,1.,语音个人特征的提取。,我们通过,Windows,自带的录音机得到声音数字信号。这种信号是一系列离散时间上的量化的振幅样点。图,1,给出某人说三次“开门”时的波形图。,本系统设计步骤,从上图中可以看出，虽然同一人说的都是同一个词，但三个波形图还是有一定差别的。所以即便声音特征反映在振幅信息中也很难直接从时域信号中提取出语音的个人特征。因此需要从其它的角度来提取语音的个人特征。,语音的感知过程,与人类听觉系统具有的频谱分析功能,是紧密相关的，因此，,对语音信号进行频谱分析，是认识语音信号和处理语音信号的重要方法,。,自功率谱,自相关函数,Rxx,（,tao,）可以,了解不同时刻同一,随机样本间的波形相似程度,。,自功率谱密度函数,Sxx,（,f,）：反映相关函数在时域内,表达随机信号自身与其他信号在不同时刻的内在联系。,当随机信号均值为零时，自相关函数和自功率谱密度函数互为傅立叶变换对。,自功率谱密度有明确的,物理含义,：当,tao,0,时，,Sxx,（,f,）曲线与频率轴,f,所包围的面积就是信号的平均功率。另外，,Sxx,（,f,）还表明了信号的功率密度沿频率轴的分布状况，因此称,Sxx,（,f,）为自功率谱密度函数。,同一个人两次说“开门”的功率谱图,不同人说“开门”的功率谱图,同一人说不同两词的功率谱图,功率谱图的特点,可以看出功率谱图比较好地反映出声音的个人特征：在低频部分（频率低于,6000Hz,）。,同一人说同一词：其功率谱图中的各个波峰所对应的频率基本相同；,不同人说同一词：其功率谱图的出现波峰的频率比较接近。,同一人说不同词：功率谱的形状差别较大。在高频部分，波峰比较密集，特征不明显。,系统设计思路,首先采集声音信号经滤波、加汉明窗、求自功率谱。,将,06000Hz,等分为,60,个频段，,100Hz,为一频段，记录功率谱图中每一频段出现波峰的频率。（信号的采样频率为,22050Hz,，窗长,256,的,Hamming,窗，频率分辨率约为,89Hz,）,我们可以将功率谱中频率较低段波峰出现的位置对应的频率值作为声音的个人特征。不妨称为这些功率谱中波峰对应的频率值,hz1,hz2,hzn,为特征频率值，它们组成的向量,Hz=(hz1,hz2,hzn,),为特征频率向量。,多次提取某人（模板提供者）说同一词时功率谱中的特征频率值，这些频率值分布趋于稳定。,系统设计思路,以,100Hz,为一个频段，将频谱（,06000,）划分为,60,个频段。将多次提取功率谱中每一频段出现的所有频率值的平均值作为标准频率向量，,F=(f1,f2,fn),以此标准频率向量,F,为模板。对一个待确认声音，提取其特征频率向量,G=(g1,g2,gm),。因为,F,由多次提取得到，所以有,m=n,。,计算,F,与,G,之间的匹配距离函数,。,根据这组距离，,一般取阈值,P,=max(D1,D2,Dn,),。由于存在诸多因素的影响，可能出现匹配距离明显偏大的情况，实际阈值视具体情况可以取得小一些。,标准频率向量,F,，距离函数,D,及阈值,P,可以构成一个“说话人确认”系统。当待确认特征向量,G,与标准向量,F,的距离,D(F,G)P,时系统即确认为模板提供者，否则认为不是。,

展开阅读全文