ImageVerifierCode 换一换
格式:PDF , 页数:3 ,大小:1.28MB ,
资源ID:467924      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/467924.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(一种改进精简的语音识别模型_刘鑫.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

一种改进精简的语音识别模型_刘鑫.pdf

1、网络信息工程2022.24670 引言在深度学习应用到语音识别领域之前,声学模型也有属于自己的一套体系,像高斯混合模型和隐马尔可夫模型在语音识别的领域上都取得了不错的效果,但是传统的语音识别模型存在上下文割裂的情况。因此,研究人员注意到具有自注意力机制的深度神经网络模型 Transformer,在机器翻译、计算机视觉等领域中展现出强劲识别性能。于是,Dong 等人首次将 Transformer模型引入语音识别领域,提出 Speech-Transformer 模型,使得 Transformer 能够完成语音识别任务;然后 Bie 等人又将Speech-Transformer 模型规模进行缩减,使

2、其应用到低存储设备,但是在传统的端对端的模型当中 Transformer 模型存在参数量大,识别准确率低,训练时间长等种种问题,无法很好地移植到硬件设备上,因此研究模型参数的影响因素和缩减模型的参数量以及加快模型的训练速度成了一个亟待解决的问题。1 相关工作本文在 Speech-Transformer 语音识别系统的基础上进行一定的探索研究,对模型中的参数进行一定的探索和量化工作,并且对模型结构进行一定的修改以求达到一个更优的模型。通过研究 Transformer 不同参数对其模型性能的影响,此外本文在对模型进行参数调整的过程中还对 Transformer模型结构中残差连接和归一化层(add&

3、norm)这一结构结合残差神经网络相应地改进施进行修改,在保证词错率下降的同时,加快模型的收敛速度和训练速度,修改结构之后的模型在词错率上相比原有模型词错率更低,并且收敛速度也比未修改结构的模型收敛速度更快。在最后训练出来的所有模型当中,挑选出参数量小准确率高解码速度快的模型进行识别任务。2 Transformer 的语音识别系统2.1 卷积神经网络压缩语音数据的长度和信息密度在语音识别中,考虑到语音数据在一段时间内会有重复的片段在里面,句子的特征向量会比较冗长,这里采用卷积层在进行特征提取的同时对语音序列的长度进行裁剪使输入语音特征序列的长度得到缩减和信息密度得到增强。一种改进精简的语音识别

4、模型刘鑫,罗幼喜(湖北工业大学理学院,湖北武汉,430068)摘要:为解决深度学习模型在语音识别芯片上内存占用过大的问题,训练时间长,训练深度不够等问题,本文在Transformer 语音识别模型的基础上,提出一种减少 Transformer 计算复杂度的模型,新的模型参数仅有原模型的 1/10,模型训练速度大大提升。此外本文在对模型进行参数调整的过程中还对 Transformer 模型结构中 add&norm 这一结构结合残差神经网络进行修改,针对模型在训练过程中因为模型深度太深(容易产生梯度消失和梯度爆炸)导致的模型收敛速度过慢或者模型不收敛等问题,在保证词错率下降的同时,加快模型的收敛速

5、度和训练速度,修改结构之后的模型在词错率上相比原有模型词错率更低,并且收敛速度也比未修改结构的模型收敛速度更快。关键词:语音识别;Transformer;残差神经网络;模型结构修改中图分类号:TN912.34 文献标志码:AAnimprovedstreamlinedspeechrecognitionmodelLiu Xin,Luo Youxi(College of science,Hubei University of Technology,Wuhan Hubei,430068)Abstract:In this paper,on the basis of the Transformer spe

6、ech recognition model,proposed a simple model to reduce Transformer computing complexity,in training to abandon the parameters in the original paper,choose the model parameters smaller structure,set the threshold in the final output of the final model structure,using Hadamard matrix smaller weight i

7、nformation in the parameter matrix filter,make the model decoding speed faster.In addition,in the process of parameter adjustment of the model,the add&norm structure is modified.According to the model convergence rate of the model in the training process,the model error rate is lower and the model i

8、s faster than the model with unmodified structure.Keywords:speech recognition;Transformer;residual neural network;model structure modificationDOI:10.16520/ki.1000-8519.2022.24.035网络信息工程2022.24682.2 对 Transformer 模型训练进行加速2.2.1 残差神经网络在 Transformer 的结构中本身自带了残差连接的结构,残差连接的结构如图 1 所示,残差连接的结构主要是为了解决深度学习模型在模

9、型网络结构过深的问题中,在面对梯度消失和梯度爆炸的问题上,残差连接的结构能够很好地保存数据特征的梯度。2.2.2 ReZero:加速深度模型收敛在此之前来自加州大学圣迭戈分校(UCSD)的研究者提出一种神经网络结构改进方法 ReZero,他对残差连接的修改如公式(1)所示:()1iiiixxF x+=+(1)在模型训练开始之前将 的默认值设定为零。改进后的网络结构如图 2 所示。图 1 残差连接结构图 图 2 更改的残差连接结构示意图2.2.3 对残差连接部分的优化改进基于上述对残差连接结构进行的一系列优化,本文选取将残差连接的优化应用在 Transformer 的结构当中,通过修改对比之前的

10、改进措施进行一系列的综合实验,以求取得一个优异的语音识别系统模型。修改的部分如图 3 和图 4 所示。图 3 原始模型当中的残差 图 4 修改模型当中的残差 连接示意图 连接示意图2.2.4 残差连接中的系数修改(加入约束因子)注意力机制的本质就是在特征的前面加上一个权重,在模型的解码过程中根据各个神经网络层的结构不断地去调整各个特征的权重,加入约束因子的目的旨在,随着神经网络的深度叠加,因为在 Transformer 的结构中所有的encoder 层和 decoder 层中都有残差连接这一结构,训练出的强特征信息会不断地放大这一特征的权重系数,与此同时,如果模型当中不存在这样的强特征,那么我

11、们对残差连接的系数进行缩小,将残差连接的权重设置为小于 1 的数,特征信息更加强调原始特征里面包含的信息,与此同时扩大原始信息,减弱深层次的特征信息,能够很好地加强模型的泛化能力。2.2.5 最终模型选择固定的约束(扩大)因子通过对各种修改残差连接的思路对比综合实验,得出了固定约束(扩大)的因子会在模型当中取得最佳的效果,固定权重的实验表现在对比其他策略之下的在词错率这一指标上,对比其他的策略平均提升 1%,相比于原始的最初模型提升了 3%,在模型的收敛速度上的提升是大幅度且显而易见的。3 实验在修改模型的残差连接系数的过程中我们尝试了可调节系数和固定配比系数,单可调节系数和双可调节系数,扩大

12、残差系数和扩大 X 的系数等等一系列的方法,发现残差连接中使用固定配比系数的效果是最好的,在模型的修改过程中改变了 Encoder 中残差链接的系数权重。4 实验结果4.1 Transformer 超参数的影响因素对于 Transformer 模型结构会受到哪些因素的影响,本文首先做了以下工作:以初始参数化的 Transformer 结构作为基础结构,采用控制变量法对比不同参数取值对准确率和解码速度的影响。其中,不同参数取值的 Transformer 结构如表 1 所示,与此同时表中还记录了不同模型的参数量和对应的训练时长,以及模型对应的词错率。表 1 不同模型参数优化表参数初始模型模型 1模

13、型 2模型 3d_model512256256256n_enc6-44n_dec6-44n_head8-4参数总量4634828817019392129406728600576训练时长109576583102301615166词错率16.8%11.2%10.9%10.2%4.1.1 词向量空间的影响这里我们选用的最佳词向量维度为 256,对比模型 1 和初始模型我们能直观地看到训练时长大大缩短,且将词向量空间减少到原来的 1/2,模型的准确率也得到极大提高。词向量空间的大小对该模型参数的影响是千万级别的。4.1.2 编码层和解码层对参数的影响我们选取了最后的模型 encoder=decoder

14、=4 这一参数,取得了比较好的效果。对比模型 1 和模型 2 的参数设置我们可以直观地看到模型的训练速度的提升效果要明显的大于其他的指标,这一参数的设置对训练速度的提升效果是显而易见的。网络信息工程2022.24694.2 模型结构修改实验结果每个模型训练 200 轮,每 40 轮保存一次实验模型记录结果见表 2:表 2 实验模型与相对应的词错率表原始97.8396.4321.7817.2316.14修改超参数96.3998.4312.1310.3911.31残差动态权重97.849.278.678.328.33双动态权重96.439.138.498.498.482x97.5612.6511.

15、7910.8810.562F(x)98.438.368.007.928.103F(x)96.768.057.987.958.044F(x)97.3510.639.638.438.564.2.1 动态残差加快模型收敛效果显著对比 40 轮的模型,模型收敛速度相较于原始模型和修改超参数之后的模型,动态残差权重模型在 40 轮的时候已经收敛,实验数据表明其收敛速度确实得到了提高。4.2.2 固定权重配比的模型效果更好在固定配比的实验中,首先选取的是 1*F(X)+2*X,即扩大原始 X(数据特征)在模型训练中的权重,强调在模型的训练当中原始 X(数据特征)在模型训练当中的重要性要比残差连接中的残差部

16、分的更大,此处用加权的权重来衡量数据在模型当中的重要性,然而事实却与我们的预期相反,扩大原始特征 x 的权重(2x)使得每一轮的模型相比于原来的模型在词错率的表现上都有所上升,因此我们在接下来的模型中放弃这一改动选择在原始模型的基础上扩大残差项的系数(2F(x))来观测模型最终的表现。4.2.3 确定合适的固定配比的比例扩大残差项的系数(2F(x))模型观察其在每一个轮次上的表现,发现无论是在收敛速度还是在准确率上,都比修改了超参数之后的模型表现更加优异,继续扩大残差项的系数(3F(x))其表现差异变化和 2F(x)不存在显著性的差异,继续扩大残差项的系数(4F(x)),发现此时的词错率开始上

17、升,本实验中的最优模型的残差连接系数调节的最佳配比应该锁定在 1:2 到 1:3 之间,即 2*F(X)+1*X 或者 3*F(X)+1*X,模型的表现最佳。在对比所有的模型实验结果后,在本实验中固定配比的模型显然要优于调节系数的模型,而在固定配比的模型当中,残差连接系数调节的最佳配比应该锁定在 1:2 到 1:3之间,即 2*F(X)+1*X 或者 3*F(X)+1*X,模型的表现最佳,此时的模型收敛速度较原有模型得到提升的同时,词错率降到最低,相对应的最低词错率分别为 7.92%和 7.956%。5 结束语本文设计了一种基于精简修改的 Transformer 模型的语音识别方法,所做的一切

18、修改都是在保证词错率下降这一大前提的条件下进行的,针对现有 Transformer 模型进行修改设计,通过对原有模型的 Encoder 部分中残差连接的系数进行修改,在保证词错率下降的同时,使得原始模型的收敛速度得到提升。此外对模型的一些超参数进行合理的调整,使得Transformer 的参数量大大减少,在网络的训练阶段,由于参数的减少,提高了训练的速度;在网络的解码验证阶段,运算量的减少,使得模型更加精简,模型训练时间和验证时间的缩短,使得研究人员能够更加方便地进行调参和模型修改等工作,方便了模型从软件到硬件上的移植。参考文献1DONG L,XU S,XU B.Speech-transfor

19、mer:a no-recurrence sequence-to-sequence model for speech recognitionC/Proceedings of the 2018 IEEE International Conference on Acoustics,Speech and Signal Processing,Canada,April 15-20,2018:5884-5888.2BIE A,VENKITESH B,MONTEIRO J,et al.A simplified fully quantized transformer for end-to-end speech

20、recognitionJ.arXiv:1911.03604,2019.3BACHLECHNER,Thomas,et al.ReZero is All You Need:Fast Convergence at Large Depth.arXiv preprint arXiv:2003.04887,202.实数据集进行训练,设计水军识别分类器。在创建特征集的过程中,对 Twitter 用户的属性特征进行具体分析发现特征的选择比数据集更重要,相较于数据集 1,数据集 2 和 3 中引入了“推特用户收藏、回复、转发总数 actions”特征后,水军识别的准确率大幅度提升,并且对于3个分类算法都是如此;

21、除此之外,比起前两种分类算法,随机森林(RF)分类法分类性能评价指标值都较高,分类效果最好。最终实验发现,使用强大的机器学习方法和适当的特征提取阶段,可以取得一些很好的结果。参考文献 1Yardi S,Romero D,Schoenebeck G,et al.Detecting spam in a twitter networkJ.First Monday,2009,15(1):1-13.2Stringhini G,Kruegel C,Vigna G.Detecting spammers on social networksC/Proceedings of the 26th annual computer security applications conference.New York:ACM,2010:1-9.3Amleshwaram A A,Reddy N,Yadav S,et al.Cats:Characterizing automation of twitter spammersC/2013 Fifth International Conference on Communication Systems and Networks(COMSNETS).Bangalore:IEEE,2013:1-10.(上接第 49 页)

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服