ImageVerifierCode 换一换
格式:PPT , 页数:24 ,大小:1.42MB ,
资源ID:13322728      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/13322728.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(第12讲-基于声卡的语言识别系统.ppt)为本站上传会员【仙人****88】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

第12讲-基于声卡的语言识别系统.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,基于声卡的语音识别系统,系统简介,功能:,在经过密码校验后可以进行密语录制,进行待测者的语音录制(多次),待测者声音与密语进行语音匹配,连续,2,次语音匹配成功,系统就认定成功,避免恶意试音,当试音失败超过,10,次系统就锁死。,前面板操作说明,1.,在输入正确密码后点击声音采集按钮,绿灯亮进行,“,密语”的录制。如果密码错误红灯亮,并且无法录制密语。,2.,点击语音识别按钮,将录制待测者的声音。,3.,当待测者声音录制完后,自动与录制的,“,密语,”,进行匹配。,匹配成功,清,0,失败次数。成功次数加,1

2、连续,2,次成功,系统认定成功。,匹配失败,清,0,成功次数。失败次数,+1,。,10,次后系统自动锁死。,原 理,声音信号转成功率谱后出现的明显特性曲线(,0-3500HZ),同一人,2,次说“开门”产生的,2,条特性曲线,把,2,次采集到的声音转成,2,个特性曲线(,0-520HZ),计算,2,个特性曲线相似度,高于设定相似度则“匹配”,低于设定相似度则“不匹配”,密码正确,情况下进行,密语的采集,进行待测者,声音的采集,通过数学方法匹,配待测声音与密语,匹配成功,成功次数,+1,清,0,失败次数,匹配失败,失败次数,+1,清,0,成功次数,成功次数,大于,2,次,失败次数小,于,10

3、次,成功次数,小于,2,次,失败次数大,于,10,次,系统,认定成功,系统,认定失败,系统,认定失败,系统,锁死,关键点与难点,1.,声音信号的声音特性的采取与转换。,(声音采集信号,声音波形,功率谱,选,0-520HZ,),2.,两波形相似度的计算。,(提取两波形的特性参数存于数组(,1,个波形,2,个数组),数学方法对数组进行处理,计算出相似度),一个声音波形信号转成,2,个数组,1.,每,20HZ,分成一段,将每段出现波峰时所对应的频率值的均值组成一个数组(如果没有波峰出现则置,0),。,作用:通过,2,个波形对应的数组异或可以判断,2,个波形在每段有没相同的波峰出现。,2.,每,20

4、HZ,分成一段,将每段的幅值,(Y),的均值组成一个数组。,把,2,个数据差值所占最大值的百分比算出来(大于百分,75,算不匹配),作用:减少波峰位置匹配时出现的误差(第一种方法),声音采集和训练识别,“说话人识别”的基本原理主要包括两阶段:训练和识别。,在训练阶段,系统的每个使用者说出若干个训练语句,系统据此建立每个使用者的模板和模板参数。,在识别阶段,待识人的语音特征提取后与系统训练时产生的模板或模板参数进行比较。,在说话人确认中,通过判断测试音与所生成的说话人的模型的匹配距离是否小于一定阈值做出判断。,模型训练,特征提取,匹配距离,模型参数,判决策略,输入语音,识别结果,语音识别的机理,

5、说话人”的识别方法有两种:,发音内容依存型:是预先确定识别用语的方法。,发音内容独立型:是无论讲什么话都可进行识别的方法。,从声音中准确提取和分离个人信息是相当困难的。至今还没有建立起准确分离和提取个人特征的技术。当前的状况是说话人识别多采用,固定声音内容的方法,来提高识别率。,多年来,人们对于,特征参数,在说话人识别系统中,的有效性,进行大量的验证和研究,得到许多有意义的结果。,声音可以理解成由振幅和相位随时间缓慢变化的正弦波构成。人的听觉对声音的感觉特征主要包含在,振幅信息,中,,相位信息一般不起作用,。在研究声音的性质时,往往把时域信息(波形图)变换得到它的频域信息(频谱),,通过研究

6、频谱和与频谱相关联的特征获得声音的特性,。,语音识别的假设,语音信号是一种典型的非平稳信号,但是由于语音的形成过程是与语音器官的运动密切相关的。这种物理运动比起声音振动速度要缓慢的多。因此,,语音信号常常可以假定为短时平稳的,。,在,1030ms,这样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。,这样我们可以采用,平稳的分析方法,来处理。,语音识别的假设,我们的设计建立在如下几点假设基础之上:,将原始的声音信号转换成数字信号的过程对声音的特征造成的影响可以忽略。,录音设备和外界环境对声音信号的影响可以忽略。,声音特征基本反映在振幅信息中。,从时域变换到频域后,语音特征体现在它

7、的频谱中,忽略频谱失真。,语音信号是短时平稳的。,本系统设计思路,本系统模型采用的是,声音内容依存型,的说话人确认系统,需要先让系统对使用者说某个特定词的语音信号进行,“学习”,。该特定词就成为系统确认通过的“密语”。也就是说想让系统确认通过,首先需要知道这个“密语”。,本系统中我们把这个“密语”设定为汉语的“开门”一词。当然这个“密语”是可以改变的。,本系统设计步骤,1.,语音个人特征的提取。,我们通过,Windows,自带的录音机得到声音数字信号。这种信号是一系列离散时间上的量化的振幅样点。图,1,给出某人说三次“开门”时的波形图。,本系统设计步骤,从上图中可以看出,虽然同一人说的都是同一

8、个词,但三个波形图还是有一定差别的。所以即便声音特征反映在振幅信息中也很难直接从时域信号中提取出语音的个人特征。因此需要从其它的角度来提取语音的个人特征。,语音的感知过程,与人类听觉系统具有的频谱分析功能,是紧密相关的,因此,,对语音信号进行频谱分析,是认识语音信号和处理语音信号的重要方法,。,自功率谱,自相关函数,Rxx,(,tao,)可以,了解不同时刻同一,随机样本间的波形相似程度,。,自功率谱密度函数,Sxx,(,f,):反映相关函数在时域内,表达随机信号自身与其他信号在不同时刻的内在联系。,当随机信号均值为零时,自相关函数和自功率谱密度函数互为傅立叶变换对。,自功率谱密度有明确的,物理

9、含义,:当,tao,0,时,,Sxx,(,f,)曲线与频率轴,f,所包围的面积就是信号的平均功率。另外,,Sxx,(,f,)还表明了信号的功率密度沿频率轴的分布状况,因此称,Sxx,(,f,)为自功率谱密度函数。,同一个人两次说“开门”的功率谱图,不同人说“开门”的功率谱图,同一人说不同两词的功率谱图,功率谱图的特点,可以看出功率谱图比较好地反映出声音的个人特征:在低频部分(频率低于,6000Hz,)。,同一人说同一词:其功率谱图中的各个波峰所对应的频率基本相同;,不同人说同一词:其功率谱图的出现波峰的频率比较接近。,同一人说不同词:功率谱的形状差别较大。在高频部分,波峰比较密集,特征不明显。

10、系统设计思路,首先采集声音信号经滤波、加汉明窗、求自功率谱。,将,06000Hz,等分为,60,个频段,,100Hz,为一频段,记录功率谱图中每一频段出现波峰的频率。(信号的采样频率为,22050Hz,,窗长,256,的,Hamming,窗,频率分辨率约为,89Hz,),我们可以将功率谱中频率较低段波峰出现的位置对应的频率值作为声音的个人特征。不妨称为这些功率谱中波峰对应的频率值,hz1,hz2,hzn,为特征频率值,它们组成的向量,Hz=(hz1,hz2,hzn,),为特征频率向量。,多次提取某人(模板提供者)说同一词时功率谱中的特征频率值,这些频率值分布趋于稳定。,系统设计思路,以,10

11、0Hz,为一个频段,将频谱(,06000,)划分为,60,个频段。将多次提取功率谱中每一频段出现的所有频率值的平均值作为标准频率向量,,F=(f1,f2,fn),以此标准频率向量,F,为模板。对一个待确认声音,提取其特征频率向量,G=(g1,g2,gm),。因为,F,由多次提取得到,所以有,m=n,。,计算,F,与,G,之间的匹配距离函数,。,根据这组距离,,一般取阈值,P,=max(D1,D2,Dn,),。由于存在诸多因素的影响,可能出现匹配距离明显偏大的情况,实际阈值视具体情况可以取得小一些。,标准频率向量,F,,距离函数,D,及阈值,P,可以构成一个“说话人确认”系统。当待确认特征向量,G,与标准向量,F,的距离,D(F,G)P,时系统即确认为模板提供者,否则认为不是。,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服