ImageVerifierCode 换一换
格式:DOC , 页数:42 ,大小:1.17MB ,
资源ID:3035191      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/3035191.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【可****】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【可****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(大学毕业设计---语音识别控制小车设计.doc)为本站上传会员【可****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

大学毕业设计---语音识别控制小车设计.doc

1、河南科技大学本科毕业设计(论文)基于语音识别的智能小车摘要随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现成为可能。近二三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域中有着越来越广泛的应用。本设计是语音识别在控制领域的一个很好实现,它将原本需要手工操作的工作用语音来方便地完成。语音识别按说话人的讲话方式可分为孤立词(Isolated Word)识别、连接词(Connected Word)识别和连续语音(Continuous Speech)识别。从识别对象的类型来看,语音识别可以分为特定人(Speaker Dependent)

2、语音识别和非特定人(Speaker Independent)语音识别。本设计采用的识别类型是特定人孤立词语音识别。本系统分上位机和下位机两大方面。上位机利用PC上MATLAB强大的数学计算能力,进行语音输入、端点监测、特征参数提取、匹配、串口控制等工作,根据识别到的不同语音通过PC串口向下位机发送不同的指令。下位机是单片机控制的一个小车,单片机收到上位机传来的指令后,根据不同的指令控制小车完成不同的动作。该设计对语音识别的现有算法进行了验证和实现,并对端点检测和匹配算法进行了些许改进。本设计达到了预期目标,实现了所期望的功能效果。关键词:MATLAB,语音识别,端点检测,LPC,单片机,电机控

3、制 SMART CAR GASED SPEECH RECOGNITIONABSTRACTWith the development of computer technology,pattern recognition,signal processing technology and acoustic technology etc, the speech recognition system that can meet the various needs of people is more possible to achieve.The past three decades, the voice

4、recognition in the field of computer, information processing, communications and electronic systems, automatic control has increasingly wide range of applications.Speech recognition by the speakers speech can be divided into isolated word (Isolated Word) identification, conjunctions (Connected Word)

5、 and continuous speech recognition (Continuous Speech) identification. Identifying the type of object from the point of view, the voice recognition can be divided into a specific person (Speaker Dependent) speech recognition and non-specific (Speaker Independent) speech recognition. This design uses

6、 the identification type is a specific person isolated word speech recognition. This design is of a good implementation of speech recognition in the control field, it does the work that would otherwise require manual operation by the voice of people easily.This system includes two major aspects:the

7、host system and the slave system. The host system use the MATLAB on the computer which has powerful mathematical computing ability to do the work of voice input, endpoint monitoring, feature extraction, matching, identification and serial control,then it send different commands through the PC serial

8、 port to slave system according different recognised voice. The slave system is a car controlled by a single-chip micro-controller.It controls the car do different actions according different instructions received. The design is checking and realization of the existing speech recognition algorithm a

9、nd I the endpoint detection and matching algorithms were slight improved.This design achieved the expected goals and achieved the desired functional effect.KEY WORDS:MATLAB,Speech Recognition,Extreme Points Test,LPC,Chip Microcomputer,Motor DriveV目录前言1第1章 系统总体设计方案介绍3第2章 上位机设计42.1 语音识别简介42.1.1 语音识别发展

10、42.1.2 语音识别的分类42.2 声音录入52.3 声音的预处理62.3.1 欲加重处理62.3.2 分帧处理62.4 端点检测62.4.1 过零率62.4.2 音量72.4.3 过零率和音量积谱82.4.4 用过零率和音量积谱来检测端点92.5 特征参数提取102.5.1 特征参数概述102.5.2 用MATLAB实现LPC系数的计算142.6 语音识别中的模式匹配142.6.1 DTW算法原理142.6.2 程序实现162.7 MATLAB上的GUI设计18第3章 下位机设计203.1 小车总体设计203.1.1 小车总体框图203.1.2 小车结构设计203.2 小车硬件设计203.

11、2.1 单片机电路设计203.2.2 驱动电路设计233.2.3 稳压电路设计243.3 小车软件设计243.3.1 主程序流程图243.3.2 部分主程序253.3.3 底层驱动程序27结论29参考文献30致谢31附录32前言随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现成为可能。近二三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域中有着越来越广泛的应用。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省

12、体积。当今,语音识别产品在人机交互应用中已经占到越来越大的比例。语音识别按说话人的讲话方式可分为孤立词(Isolated Word)识别、连接词(Connected Word)识别和连续语音(Continuous Speech)识别。孤立词识别是指说话人每次只说一个词或短语,每个词或短语在词汇表中都算作一个词条,一般用在语音电话拨号系统中。连接词语音识别支持一个小的语法网络,其内部形成一个状态机,可以实现电话语音查询、航空定票等系统。连续语音识别是指对说话人以日常自然的方式发音,通常特指用于语音录入的听写机。从识别对象的类型来看,语音识别可以分为特定人(Speaker Dependent)语音

13、识别和非特定人(Speaker Independent)语音识别。特定人是指只针对一个用户的语音识别,非特定人则可用于不同的用户。实际上,非特定人语音识别的初始识别率往往都比较低,一般都要求用户花一定的时间对系统进行训练,将系统的参数进行一定的自适应调整,才能使识别率达到满意的程度。本设计采用的识别类型是特定人孤立词语音识别。本设计是语音识别在控制领域的一个很好实现,它将原本需要手工操作的工作用语音来方便地完成。本系统分上位机和下位机两大方面。上位机利用PC上MATLAB强大的数学计算能力,进行语音输入、端点监测、特征参数提取、匹配、串口控制等工作,根据识别到的不同语音通过PC串口向下位机发送

14、不同的指令。下位机是单片机控制的一个小车,单片机收到上位机传来的指令后,很据不同的指令控制小车完成不同的动作。该设计对语音识别的现有算法进行了验证和实现,并对端点检测和匹配算法进行了些许改进。为了更方便的进行上位机的操作,本设计用MATLAB的GUI设计了一个图形界面。上面设置了串口选择框、录音开始按钮、语音识别结果框等。下位机采用STC2C5A60S2单片机作为控制中心,采用L298专用驱动芯片搭建双桥,进行点击的正反转调速等控制。本设计达到了预期目标,实现了所期望的功能效果。第1章 系统总体设计方案介绍本系统分上位机和下位机两大方面。上位机利用PC上MATLAB强大的数学计算能力,进行语音

15、的输入、端点监测、特征参数提取、匹配、识别、串口控制等工作,根据识别到的不同语音通过PC串口向下位机发送不同的指令。下位机是单片机控制的一个小车,单片机收到上位机传来的指令后,很据不同的指令控制小车完成不同的动作。PC机和小车之间通过串口无线传输模块进行数据传输。总体框图如图1-1所示:PC机(语音识别)无线发射语音输入电机单片机控制中心驱动电路无线接收图1-1 系统总体框图第2章 上位机设计上位负责语音的识别,并根据识别到的不同结果向下位机(小车)发送不同的指令。上位机的设计基于MATLAB平台,利用MATLAB强大的数学计算能力,进行语音的输入、预处理、端点监测、特征参数提取、匹配、识别、

16、串口控制等工作。2.1 语音识别简介2.1.1 语音识别发展随着时代的发展,人们越来越注重生活的品质。便捷时尚成为当代人们的追求目标。随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现成为可能。近二三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域中有着越来越广泛的应用。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。当今,语音识别产品在人机交互应用中已经占到越来越大的比例。2.1.2 语音识别的分类语音

17、识别按说话人的讲话方式可分为孤立词(Isolated Word)识别、连接词(Connected Word)识别和连续语音(Continuous Speech)识别。孤立词识别是指说话人每次只说一个词或短语,每个词或短语在词汇表中都算作一个词条,一般用在语音电话拨号系统中。连接词语音识别支持一个小的语法网络,其内部形成一个状态机,可以实现简单的家用电器的控制,而复杂的连接词语音识别系统可以用于电话语音查询、航空定票等系统。连续语音识别是指对说话人以日常自然的方式发音,通常特指用于语音录入的听写机。显然,连续非特定人语音识别的难度要大得多,因为不仅有说话人口音的问题,还有协同发音、断字断句、搜索

18、等问题,除了考虑语音的声学模型外还要涉及到语言模型,如构词法、文法等。从识别对象的类型来看,语音识别可以分为特定人(Speaker Dependent)语音识别和非特定人(Speaker Independent)语音识别。特定人是指只针对一个用户的语音识别,非特定人则可用于不同的用户。实际上,非特定人语音识别的初始识别率往往都比较低,一般都要求用户花一定的时间对系统进行训练,将系统的参数进行一定的自适应调整,才能使识别率达到满意的程度。非特定人大词表连续语音识别是近几年研究的重点,也是研究的难点。目前的连续语音识别大多是基于HMM(隐马尔可夫模型)框架,并将声学、语言学的知识统一引入来改善这个

19、框架,其硬件平台通常是功能强大的工作站或PC机。2.2 声音录入本设计利用PC上的话筒口进行声音录入。通过MATLAB的wavrecord函数进行声音录入。wavrecord是MATLAB的专有声音录入函数,他有一下三种调用方式:(1) y = wavrecord(n,Fs)(2) y = wavrecord(n,Fs,ch)(3) y = wavrecord(n,Fs,dtype)其中n代表声音录入的总采样数。Fs代表声音的采样率。ch代表声音录入采用的通道数,当ch为1时为单声道,当ch为2时为立体声。dtype代表采样数据的存储类型,MATLAB提供四种存储类型如下:(1) double

20、 (default value), 16 bits/sample(2) single, 16 bits/sample(3) int16, 16 bits/sample(4) uint8, 8 bits/sample 本设计单次采样总数为50000点,采样率为22000HZ。即:y=wavrecord(50000,22000);2.3 声音的预处理2.3.1 欲加重处理预加重的目的在于滤除低频干扰,尤其是50Hz或60Hz的工频干扰,将对于语音识别更为有用的高频部分的频谱进一步提升。在计算短时能量之前应用该滤波器,还可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的效果。2.3.2 分帧处理

21、在计算各个系数之前要先将语音信号作分帧处理。语音信号是瞬时变化的,但在1020ms内是相对稳定的.我设定的采样频率为11025所以我们对预处理后的语音信号S1(n)以1024点为一帧进行处理,帧移为512个采样点。2.4 端点检测所谓端点检测,就是在实时输入的声音信号中,区分背景噪声和环境噪声,准确地判断出声音信号的开始点和结束点。在语音识别系统中,正确、有效地进行端点检测不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰、提高语音识别的正确率。研究表明,即使是在安静的环境下,语音识别系统一半以上的错误可能主要来基于MTLAB编写的语音端点检测程序。除此之外, 在语音合成、 编码等系

22、统中,高效的端点检测也直接影响甚至决定着系统的主要性能。因此, 端点检测的效率、 质量在语音处理系统中显得至关重要。2.4.1 过零率过零率(Zero Crossing Rate)是在每个音框中,音讯通过零点的次数。一般而言,噪声的过零率大于气音的过零率,而气音的过零率又大于有声音的过零率。一半情况下,噪声的波形和声音波形相比幅度非常小,为了排除噪声对过零率产生的影响,我将声音的原始谱向上平移,使得噪声的过零点影响大大减小。如下,图2-1展示了没有平移前的过零谱图,图2-2展示了平移后的过零谱图。可以看出,平移后,话音可以很容易从噪音中区分开来。图2-1 平移前的过零谱图2-2 平移后的过零谱

23、2.4.2 音量能量或者音量代表声音的大小,可由声音讯号的震幅来类比,又称为能量(Energy)或强度(Intensity)等。话音的能量远比噪声的能量要大,故可用能量来区分是静音还是由话音。这里将每帧的幅度绝对值之和作为每一帧的总能量大小。音量谱如图2-3所示:图2-3 音量谱2.4.3 过零率和音量积谱通常利用短时能量来检测浊音,用过零率来检测清音,两者配合实现可靠的端点检测。端点检测算法常用的是由语音能量和过零率组合的有双门限法,以及短时能量和过零率的乘积构成的能频值法。图2-4展示了过零谱、音量谱和过零率和能量成绩构成的谱线。图2-4 过零音量积谱2.4.4 用过零率和音量积谱来检测端

24、点端点检测算法常用的是由语音能量和过零率组合的有双门限法,以及短时能量和过零率的乘积构成的能频值法。这里采用的是第二种方法,通过能量和过零率的乘积构成的能频值来判断语音的端点。这里我对端点进行了两级判断。首先根据过零率和音量积设定一个较高的门限T H , 若谱大于T H ,则可确定2个端点A、 B, 并可认为这 2个端点之间是语音信号, 这样相当于完成初判。 再根据背景噪声的过零率和音量积设定一个比TH 稍低的门限T L , 如果信号的能量大于 TL ,则所对应的端点C、 D 之间仍是语音信号,至此完成了第二级判断。判断结果如图2-5所示:图2-5 端点检测出的语音波形2.5 特征参数提取2.

25、5.1 特征参数概述对于特征参数,有多种参数可供选取。常见的有三种:(1)线形预测系数特征矢量(LPC)(2)LPC倒谱特征矢量(LPCC)(3)Mel倒谱系数(MFCC)1. 线性预测系数(LPC)这里我采用最简单的一种线形预测系数特征矢量(LPC)。线性预测(Linear Prediction)分析是最有效的语音分析技术之一,在语音编码、语音合成、语音识别和说话人识别等语音信号处理领域中得到了广泛的应用。基本思想是:一个语音信号的抽样值可以用过去的若干个抽样值的线性组合来逼近。语音信号是一种典型的时变信号,然而如果把观察时间缩短到十毫秒至几十毫秒,则可以得到一系列近似稳定的信号。人的发音器

26、官可以用若干段前后连接的声管进行模拟,这就是所谓的声管模型。由于发音器官不可能毫无规律地快速变化,因此语音信号是准稳定的(quasi steady)。全极点线性预测模型(LPC)可以对声管模型进行很好的描述,这里信号的激励源是由肺部气流的冲击引起的,声带可以有周期振动也可以不振动,分别对应浊音(Vowel)和清音(Consonant),而每段声管则对应一个LPC模型的极点。一般情况下,极点的个数在1216之间,就可以足够清晰地描述语音信号的特征了。LPC是语音分析的重要手段,它能很好地进行谱估计,即可作为语音特征的参数。因此仅用12个LPC系数就能很好地表示复杂语音信号的特征,这就大大降低了信

27、号的冗余度并有效地减少了计算量和存储量,使之成为语音识别和语音压缩的基础。 2.1上式表示p个方程构成的方程组,未知数为p个。求解该方程组,就可以得到系统的线性预测系数。由基于自相关的递推求解公式求解,也就是所谓的Durbin算法得:2.22.32.42.52.6公式中,上标表示第次迭代,每次迭代只计算和更新 直到时,结束迭代。在MATLAB中利用lpc函数计算LPC系数,其语法为:a = lpc(x,n);这里x为一帧语音信号,n为计算LPC参数的阶数。通常x为240点或256点的数据,n取1012,对语音识别来说就已经足够。2. 线性预测倒谱系数(LPCC)在语音识别系统中,很少直接使用L

28、PC系数,而是由LPC系数推导出另一种参数:线性预测倒谱系数(LPCC)。倒谱实际上是一种同态信号处理方法,标准的倒谱系数计算流程需要进行FFT变换,对数操作和相位校正等步骤,运算比较复杂。在实际运作中大多数语音识别系统都会采用倒谱参数来作为有关距离的度量。LPC 倒谱系数是描述说话人声道特性的,广泛应用于声纹识别。在实际计算中,当序列x(n)为最小相位的情况下,可以利用序列x(n)及其倒谱系数c(n)的递推关系来简化计算。序列x(n)及其复倒谱系数c(n)的递推公式如下:2.7LPCC参数是一种非常重要的参数,它不是由原始信号x(n)得到,而是由LPC系数得到的。由2.6式可得LPC到LPC

29、C的直接递推关系。2.82.92.103. Mel尺度倒谱系数(MFCC)LPC模型是基于发音模型建立的,LPCC系数也是一种基于合成的参数。这种参数没有充分利用人耳的听觉特性。实际上,人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数的关系。近年来,一种能够比较充分利用人耳这种特殊的感知特性的参数得到了广泛的应用,这就是Mel尺度倒谱参数(Mel-scaled Cepstrum Coefficient),或称Mel频率倒谱系数,简称为MFCC。大量的研究表明,MFCC参数能够比LPCC参数更好地提高系统的识别性能。从目前使用的情况来看,在大词汇量语音识别

30、应用中已逐渐取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的鲁棒性。由于语音信号在时域上的变化快速而不稳定,所以通常都将它转换到频域上来观察,此时它的频谱会随着时间作缓慢的变化。所以通常将加窗后的帧经过快速傅立叶变换(FFT),求出每帧的频谱参数。再将每帧的频谱参数通过一组N 个( N 一般为20 30 个)三角形带通滤波器所组成的Mel频率滤波器,将每个频带的输出取对数,求出每一个输出的对数能量(log energy)Ek,k =1,2,. N。再将此N 个参数进行余弦变换(cosine transform) 求出L 阶的Mel -scale c

31、epstrum 参数。MFCC参数的计算是以“bark”为其频率基准的,它和线性频率的转换关系是:2.11MFCC参数也是按帧计算的。首先要通过FFT得到该帧信号的功率谱,转换为Mel频率下的功率谱。这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器:2.12MFCC参数的计算通常采用如下的流程:(1) 首先确定每一帧语音采样序列的点数。对每帧序列进行预加重处理后再经过离散FFT变换,取模的平方得到离散功率谱。(2)计算通过M个后所得的功率值,即计算和在各离散频率点上乘积之和,得到M个参数,。(3)计算的自然对数,得到,。(4)对计算其离散余弦变换,得到,。(5)舍去代表直流成分的,取作

32、为MFCC参数。2.5.2 用MATLAB实现LPC系数的计算本系统使用的特征参数是线性预测系数(LPC)。在MATLAB中利用lpc函数计算LPC系数,其语法为:a = lpc(x,n);这里x为一帧语音信号,n为计算LPC参数的阶数。通常x为240点或256点的数据,n取1012,对语音识别来说就已经足够。2.6 语音识别中的模式匹配2.6.1 DTW算法原理目前,语音识别的匹配主要应用HMM和DTW两种算法。DTW算法由于没有一个有效地用统计方法进行训练的框架,也不容易将低层和顶层的各种知识用到语音识别算法中,因此在解决大词汇量、连续语音、非特定人语音识别问题时较之HMM算法相形见绌。H

33、MM是一种用参数表示的,用于描述随机过程统计特性的概率模型。而对于孤立词识别,HMM算法和DTW算法在相同条件下,识别效果相差不大, 又由于DTW算法本身既简单又有效,但HMM算法要复杂得多。它需要在训练阶段提供大量的语音数据,通过反复计算才能得到参数模型,而DTW算法的训练中几乎不需要额外的计算。鉴于此,DTW更适合本系统的要求。 在孤立词语音识别中,最为简单有效的方法是采用DTW(Dynamic Time Warping,动态时间归整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。用于孤立词识别,DTW算法与HMM算法在

34、训练阶段需要提供大量的语音数据,通过反复计算才能得到模型参数,而DTW算法的训练中几乎不需要额外的计算。所以在孤立词语音识别中,DTW算法仍然得到广泛的应用。 无论在训练和建立模板阶段还是在识别阶段,都先采用端点算法确定语音的起点和终点。已存入模板库的各个词条称为参考模板,一个参考模板可表示为R=R(1),R(2),R(m),R(M),m为训练语音帧的时序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模板所包含的语音帧总数,R(m)为第m帧的语音特征矢量。所要识别的一个输入词条语音称为测试模板,可表示为T=T(1),T(2),T(n),T(N),n为测试语音帧的时序标号,n=1为起点

35、语音帧,n=N为终点语音帧,因此N为该模板所包含的语音帧总数,T(n)为第n帧的语音特征矢量。参考模板与测试模板一般采用相同类型的特征矢量(如MFCC,LPC系数)、相同的帧长、相同的窗函数和相同的帧移。 假设测试和参考模板分别用T和R表示,为了比较它们之间的相似度,可以计算它们之间的距离DT,R,距离越小则相似度越高。为了计算这一失真距离,应从T和R中各个对应帧之间的距离算起。设n和m分别是T和R中任意选择的帧号,dT(n),R(m)表示这两帧特征矢量之间的距离。距离函数取决于实际采用的距离度量,在DTW算法中通常采用欧氏距离。 若N=M则可以直接计算,否则要考虑将T(n)和R(m)对齐。对

36、齐可以采用线性扩张的方法,如果NM可以将T线性映射为一个M帧的序列,再计算它与R(1),R(2),R(M)之间的距离。但是这样的计算没有考虑到语音中各个段在不同情况下的持续时间会产生或长或短的变化,因此识别效果不可能最佳。因此更多的是采用动态规划(DP)的方法。 如果把测试模板的各个帧号n=1N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧号m=1M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网络,网络中的每一个交叉点(n,m)表示测试模式中某一帧的交汇点。DP算法可以归结为寻找一条通过此网络中若干格点的路径,路径通过的格点即为测试和参考模板中进行计算的帧号。路径不

37、是随意选择的,首先任何一种语音的发音快慢都有可能变化,但是其各部分的先后次序不可能改变,因此所选的路径必定是从左下角出发,在右上角结束。为了描述这条路径,假设路径通过的所有格点依次为(n ,m ),(n ,m ),(n ,m ),其中(n ,m )=(1,1),(n ,m )=(N,M)。路径可以用函数m =(n )描述,其中n =i,i=1,2,N,(1)=1,(N)=M。为了使路径不至于过倾斜,可以约束斜率在0.52的范围内,如果路径已经通过了格点(n ,m ),那么下一个通过的格点(n ,m )只可能是下列三种情况之一: (n ,m )=(n +1,m +2) (n ,m )=(n +1

38、,m +1) (n ,m )=(n +1,m ) 用r表示上述三个约束条件。求最佳路径的问题可以归结为满足约束条件r时,求最佳路径函数m =(n ),使得沿路径的积累距离达到最小值,即: 搜索该路径的方法如下:搜索从(n ,m )点出发,可以展开若干条满足的路径,假设可计算每条路径达到(n ,m )点时的总的积累距离,具有最小累积距离者即为最佳路径。易于证明,限定范围的任一格点(n ,m )只可能有一条搜索路径通过。对于(ni,mi),其可达到该格点的前一个格点只可能是(n ,m )、(n ,m -1)和(n ,m -2),那么(n ,m )一定选择这3个距离之路径延伸而通过(n ,m ),这

39、时此路径的积累距离为: D(n ,m )=dT(n ),R(m )+D(n , m ) 其中的n = n -1 ,m -1由下式决定: D(n ,m )=minD(n , m ),D(n , m -1),D(n , m -2) 这样可以从(n ,m )=(1,1)出发搜索(n ,m ),再搜索(n ,m ),对每一个(n ,m )都存储相应的前一格点(n ,m )及相应的帧匹配距离dn ,m 。搜索到(n ,m )时,只保留一条最佳路径。如果有必要的话,通过逐点向前寻找就可以求得整条路径。这套DP算法便是DTW算法。 2.6.2 程序实现DTW算法可以直接按上面的描述来实现,即分配两个NM的矩

40、阵,分别为积累距离矩阵D和帧匹配距离矩阵d,其中帧匹配距离矩阵d(i,j)的值为测试模板的第i帧与参考模板的第j帧间的距离。D(N,M)即为最佳匹配路径所对应的匹配距离。 程序中,首先申请两个nm的距阵D和d,分别为累积距离和帧匹配距离。这里n和m为测试模板与参考模板的帧数。然后通过一个循环计算两个模板的帧匹配距离距阵d。接下来进行动态规划,为每个格点(i,j)都计算其三个可能的前续格点的累积距离D1、D2和D3。考虑到边界问题,有些前续格点可能不存在,因此要加入一些判断条件。 最后利用最小值函数min,找到三个前续格点的累积距离的最小值作为累积距离,与当前帧的匹配距离d(i,j)相加,作为当

41、前格点的累积距离。该计算过程一直达到格点(n,m),并将D(n,m)输出,作为模板匹配的结果。程序如下:functiondist=fDTW(t,r)n = size(t,1); m = size(r,1); if(abs(n-m)1 D2 = D(i-1,j-1); else D2 = realmax; end if j2 D3 = D(i-1,j-2); else D3 = realmax; end D(i,j) = d(i,j) + min(D1,D2,D3); end end dist = D(n,m);else dist=realmax;End2.7 MATLAB上的GUI设计MATL

42、A作为功能强大的科学计算软件,同样也提供了图形用户界面设计的功能。在MATLAB中,基本的图形用户界面对象包括三类:用户界面控件对象,下拉式菜单对象和快捷菜单对象。根据这些图形对象,可以设计出界面友好。操作方便的图形用户界面。本系统的整个上位机使用MATLAB做的,为了更方便的进行操作,我用MATLAB的GUI设计了一个图形界面。上面设置了串口选择框、录音开始按钮、语音识别结果框等。实际界下面如图2-6所示:图2-6 MATLAB-GUI界面第3章 下位机设计3.1 小车总体设计3.1.1 小车总体框图系统总体框图如下所示。整个系统以单片机作为控制中心,单片机前要接受上位机传来的控制指令,后要

43、根据收到的指令控制小车完成不同的功能。小车共有两个电机,有L298构成的H桥来驱动。稳压电路采用线性稳压芯片7805来完成。系统框图如图1-1所示:单片机控制核心串口接收L298电机驱动电路电机图3-1 系统总体框图3.1.2 小车结构设计本小车底盘采用三轮结构,两个动力轮分别由两个直流电机单独驱动。第三个轮是转向轮,可以三百六十度转向。核心板采用通用板搭建,采用专用芯片插槽,方便单片机的拆卸。驱动电路和稳压电路焊在同一通用板上,两个板子用铜柱固定为上下两层,节省空间。整个小车实物图见附录一。3.2 小车硬件设计3.2.1 单片机电路设计本系统单片机采用的是宏晶公司的STC12C5A60S2,

44、它采用增强型8051内核。指令代码完全兼容传统8051单片机,但速度比传统8051单片机快8-12倍。单片机控制电路主要有复位电路、晶体振荡电路两部分。其总体电路图如图3-2所示:图3-2 单片机电路图1. 复位电路复位电路是单片机控制电路中很重要的电路之一。STC12C5A60S2单片机为高电平复位,及即要使得复位管脚RST保持一定时间的高电平。其复位电路分两种情况。当单片机时钟频率小于12MHZ时,采用第一种复位电路。将RST管脚接1K电阻R1到地,其电路如图3-3所示。图3-3 第一复位电路当单片机时钟频率大于12MHZ时,采用第二复位电路,其电路如图3-4所示。图3-4 第二复位电路本电路单片机时钟采用的是12MHZ,故复位电路采用第二种。以上复位电路只能保证单片机能够上电复位,为了更好的进行调试,本电路对上面的电路进行了更改,使得单片机电路能够手动复位。改进后的复位电路如下图3-5所示。当按键按下时,由于电阻R1的作用,RST管脚保持为高电平。单片机复位。图

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服