收藏 分销(赏)

基于多任务损失附加语言模型的语音识别方法.pdf

上传人:自信****多点 文档编号:634284 上传时间:2024-01-19 格式:PDF 页数:6 大小:3.52MB
下载 相关 举报
基于多任务损失附加语言模型的语音识别方法.pdf_第1页
第1页 / 共6页
基于多任务损失附加语言模型的语音识别方法.pdf_第2页
第2页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、江苏大學学报(自然科学版)JOURNAL OF JIANGSUUNIVERSITY(Natural Science Edition)D0I:10.3969/j.issn.1671 7775.2023.05.010基于多任务损失附加语言模型的语音识别方法2023年9月第44卷第5期Sept.2023Vol.44No.5开放科学(资源服务)标识码(OSID):号柳永利,张绍阳,王裕恒,解熠(1.长安大学信息工程学院,陕西西安7 10 0 6 4;2.陕西交通控股集团有限公司运营管理分公司,陕西西安7 10 0 6 5)摘要:针对Attention过于灵活的对齐方式在复杂环境中适应性差、简单端到端模

2、型对语言特征利用不充分的问题,研究了基于多任务损失附加语言模型的语音识别方法.通过分析语音信号特征,训练中选用包含更多信息的特征.以基于Attention的Conformer端到端模型为基础,采用CTC损失辅助纯Conformer(A t t e n t i o n)的多任务损失训练模型,得到Conformer-CTC语音识别模型.在Con-former-CTC模型基础上,通过分析对比部分语言模型的特点与效果,将Transformer语言模型通过重打分机制附加至上述模型的训练中,最终得到Conformer-CTC-Transformer语音识别模型.在AISHELL-1数据集上对上述模型进行了

3、试验.结果表明:Conformer-CTC 模型相对于纯Conformer(A t t e n t i o n)模型在测试集上的字错率(character error rate,CER)降低了0.49%,而Conformer-CTC-Transformer模型相对于Conformer-CTC模型在测试集上的CER又降低了0.7 9%.CTC损失可以改善Attention对齐方式在复杂环境中的适应性,并且对Conformer-CTC模型附加Transformer语言模型重打分后能再次提升0.30%的识别准确率.相较于现有的部分端到端模型,Conformer-CTC-Transformer模型识别

4、效果较好,说明该模型具有一定的有效性。关键词:语音识别;深度学习;语言模型;多任务损失;Conformer;T r a n s f o r me r;CT C中图分类号:TP391.9引文格式:柳永利,张绍阳,王裕恒,等基于多任务损失附加语言模型的语音识别方法J.江苏大学学报(自然科学版),2 0 2 3,44(5):564 569.Speech recognition method based on multi-task loss with文献标志码:A文章编号:16 7 1-7 7 7 5(2 0 2 3)0 5-0 56 4-0 6additional language modelLIU

5、 Yongli,ZHANG Shaoyang,WANG Yuheng,XIE Y?(1.School of Information Engineering,Changan University,Xian,Shaanxi 710064,China;2.Operation Management Branch of ShaanxiTransportation Holding Group Co.,Ltd.,Xian,Shaanxi 710065,China)Abstract:To solve the problems that the Attentions overly flexible alignm

6、ent was poorly adaptable incomplex environments and the language features were not fully utilized by simple end-to-end models,aspeech recognition method was investigated based on multi-task loss with additional language model.Byanalyzing the characteristics of the speech signal,the features containi

7、ng more information were selectedin the training.Based on the Attention-based Conformer end-to-end model,the model was trained usingmulti-task loss of CTC loss assisted pure Conformer(A t t e n t i o n),a n d t h e Co n f o r me r-CT C s p e e c hrecognition model was obtained.Based on the Conformer

8、-CTC model,by analyzing and comparing thecharacteristics and effects of some language models,the Transformer language model was added to the收稿日期:2 0 2 2-0 7-13基金项目:陕西省重点产业创新链(群)项目(2 0 2 1ZDLGY07-06)作者简介:柳永利(1997 一),男,甘肃平?人,硕士研究生(),主要从事人工智能、大数据研究。张绍阳(197 1一),男,山西襄汾人,教授(),主要从事智能交通、大数据研究.565第5期柳永利等:基于多

9、任务损失附加语言模型的语音识别方法training of the above model through re-scoring mechanism,and the Conformer-CTC-Transformer speechrecognition model was obtained.The experiments on the above model were completed on the AISHELL-1data set.The results show that compared with the pure Conformer(Attention)model,the chara

10、cter errorrate(CER)of the Conformer-CTC model on the test set is reduced by O.49%,and the CER of theConformer-CTC-Transformer model on the test set is reduced by 0.79%compared with the Conformer-CTC model.The adaptability of Attention alignment in complex environments can be improved by CTCloss,and

11、after re-scoring the Transformer-CTC model with the Transformer language model,therecognition accuracy can be increased by 0.30%again.Compared with some existing end-to-endmodels,the recognition effect of the Conformer-CTC-Transformer model is better,indicating that themodel has certain effectivenes

12、s.Key words:speech recognition;deep learning;language model;multi-task loss;Conformer;Transformer;CTC语音识别技术是语音信号处理技术的一个重要分支,它涉及包括声学、语音学和计算机科学等在内的诸多学科,是一项交叉技术.语音识别技术研究的是如何把语音信号转化为文本信息,其实现借助于计算机技术,使得机器能够自动将输人的语音信号转化为对应的文本信息输出.语音识别技术从2 0 世纪50 年代发展至今,已经出现了一些具有代表性的方法,例如基于声学和语音学、基于模式匹配和基于深度学习等的识别方法.基于模式匹配

13、的识别方法目前最成熟,效果较好的是以隐马尔科夫模型为基础的DNN-HMM模型.基于深度学习的识别方法是现在的热门方法,具有良好的复杂环境适应性.深度学习通过使用有多个处理层的深度图来对数据进行高级抽象建模 ,其较强的自适应性和良好的复杂环境适应能力促使其快速发展.近年来,自动语音识别(automatic speech recognition,ASR)已经从基于深度神经网络的混合模型逐渐转向端到端模型.端到端模型主要有基于链接时序分类(connec-tionist temporal classification,CT C)的端到端模型和基于注意力机制(Attention)的编码器解码器(En-c

14、oder-Decoder)模型2 种2 ,虽然其训练流程简单,可以不用训练声学模型和语言模型而直接输出文本,且其网络单一,相比于传统的混合模型更加紧凑,但由于其起步较晚,目前仍存在一些不足.首先,由于端到端模型不使用语言模型,因而未能充分利用语言特征,不利于提高识别的准确率.其次,端到端模型的2 种主要实现方式各有不足,基于CTC的模型对于标签序列中词与词之间的依赖关系无法有效进行建模处理3;而 Attention一开始注意范围太大,导致训练难以收敛4,并且对帧与标签之间的对齐关系没有限制,无效计算较多.目前,已有研究者在进行Attention与CTC的结合,如文献5将混合CTC/Attent

15、ion架构用于带口音普通话识别,文献6 将Transformer与CTC结合进行端到端语音识别等.针对上述问题,考虑到CTC具有直接优化输入序列与输出目标序列似然度的能力,且文献7 试验结果表明,Conformer端到端模型优于Transformer端到端模型.文中拟以基于 Attention 的 Conformer端到端模型为基础,采用CTC 损失辅助其训练而获得Conformer-CTC语音识别模型;并在此基础上,通过分析对比部分语言模型的特点与效果,将Trans-former语言模型通过重打分机制附加至上述模型的训练中,最终得到Conformer-CTC-Transformer语音识别模

16、型;最后,在希尔贝壳开源的17 8 h数据集(A I SH ELL-1)上对上述模型进行测试,并同现有部分端到端模型进行效果对比.1模型结构基于端到端的语音识别模型只有一个神经网络,它用一个损失函数作为训练的优化目标去优化有用目标,提高了模型训练效率,其实现主要有基于CTC 的端到端模型和基于Attention 的Encoder-Decoder模型2 种.文献8 试验数据也表明,基于Attention的Encoder-Decoder模型的字错率(charac-ter error rate,C ER)比基于CTC的端到端模型的CER更低.文献9 使用基于Attention的Encoder-Dec

17、oder模型的试验中,对词错率(word errorrate,WER)为8.3%的原始语音转录后可使其WER降至7.4%.通过上述试验结果可知,基于Attention的566江苏大学学报(自然科学版)第44卷Encoder-Decoder语音识别模型的识别效果优于基于CTC的端到端模型.而目前效果较好的基于At-tention 的 Encoder-Decoder 模型有Transformer 和Conformer72种.由文献7 可见,Conformer模型在LibriSpeech上的效果明显优于Transformer模型.基于上述分析,文中语音识别模型的基本网络结构选用 Conformer,

18、并在其训练过程中使用 CTC 进行辅助,在模型解码时附加Transformer语言模型进行重打分.最终得到ASR模型的结构如图1所示.Transformer解码器LM输入序列联人层图1ASR模型结构2模型中各模块结构的确定2.1语音信号特征及语言模型在语音处理过程中,常用的语音信号特征有语谱特征、Mel频率倒谱系数、FBank特征等.由于文中采用神经网络建模,而语音信号特征中适用于神经网络建模的有FBank特征和语谱特征,特征图见图2.25508000600040002.0000图2 FBank特征图与语谱特征图在语音信号特征的提取过程中,相比FBank特征的提取,语谱特征的提取过程不需要经过

19、Mel滤波器组的滤波操作,它包含了语音信号的所有频谱特征.因此,语音信号的语谱特征比FBank特征能够保留更多的原始信息,且其特征的提取过程比FBank简单,但FBank特征目前应用最为广泛.为了进一步对二者进行比较,文中分别提取两种语音特征,在相同条件下训练基于Transformer编码器的Conformer端到端ASR模型,以选取效果较好的特征在后续试验中使用.试验模型在AISHELL-1数据集上的测试结果如表1所示.表1提取不同语音信号特征模型的测试结果%CTC特征类型Conformer融合编码器解码输出序列Transformer解码器50100帧数/顿(a)FBank特征图0.51.0

20、1.52.0t/s(b)语谱特征图CER验证集FBank 特征6.3语谱特征5.8由表1可见,在数据集上提取语谱特征训练的模型CER比提取FBank特征训练的模型低,在试验中的识别效果相对较好.语言模型用来表示词与词之间的对应关系,是根据文本信息建立的语言抽象数学模型.其类型主要有规则语言模型、统计语言模型和神经网络语言模型3种,目前常用的是神经网络语言模型.神经网络语言模型中应用较多的有Transformer和长短期记忆(long short term memory,LST M)网络,其中,Transformer支持并行计算,性能方面更好,但在建立依赖关系方面比LSTM弱.LSTM可以更好地

21、处理时序相关的问题,但由于内存消耗高,它在资源受限环境中(例如便携式设备)的使用受到限制10 .为了选用较好的模型在后续试验中使用,在训练迭代次数等相同的条件下训练2 种语言模型,并在AISHELL-1数据集上对模型进行测试,试验模型测试结果如表2 所示.150200测试集6.56.1250表2 基于不同网络语言模型的测试结果语言模型验证集最优LossLSTM4.293Transformer3.991由表2 可见,试验中训练的Transformer语言模型比LSTM语言模型在AISHELL-1数据集上测试的2.5Loss值更低、困惑度更小,获得的模型效果更好.2.2Conformer网络及多任

22、务损失Conformer由Google在2 0 2 0 年提出,是一种基于Transformer和CNN蜕变出的网络模型7 .Trans-former网络中的自注意力层擅长提取序列的全局依赖信息,而CNN则能有效地捕捉局部特征信息.基于二者优点,Conformer使用卷积加强了Transformer困惑度71.945 167 889 162 349.224 826 936 627 7567第5期柳永利等:基于多任务损失附加语言模型的语音识别方法在语音识别中的效果,以参数有效的方式对音频序列的局部和全局特征进行建模,从而得到了更好的模型.原始Conformer网络的解码器采用的是单LSTM,其编

23、码器是在Transformer编码器基础上改进的,如图3所示.40ms采样率一Conformer模块Dropout40ms采样率40ms采样率卷积上采样层10ms采样率10 ms.采样率图3Conformer编码器网络结构由图3可见,Conformer 编码器多出了一层提取局部特征的卷积层,而前馈神经网络层则被一分为二.Conformer网络的核心就是其编码器,编码器对输入向量进行如下计算:1x=x;+MHSA(x;),x=x+Con(x),J;=Layernorm(x;+FFN(2式中:FFN(x)表示数据经过前馈神经网络层的处理;MHSA(x)表示数据经过多头注意力层的处理;Conu(x)

24、表示数据经过卷积层的处理;Layernorm(x)表示数据经过量纲一化层的处理。由于原始Conformer网络的解码器采用单层的LSTM,这限制了整个网络的性能,所以采用更好的Transformer解码器对其替换.Transformer解码器通过注意力机制可以提高解码准确率,但收敛速度慢,对帧与标签之间的对齐关系没有限制,会有许多无效计算.而CTC 能够很好地解决对齐问题,它不需要对输入序列预先分段,通过前后向算法直接可以让输出序列与输入序列按时间对齐,可以让语音帧和其对应的文字标签大致对应.因此可以通过改变网络结构实现融合解码,使CTC协助Attention机制完成解码工作,这不仅能够使混合

25、模型利用标签依赖性,而且可以加速注意力解码器的收敛.At-tention 和 CTC二者的损失转换为一个统一的损失值后,在统一损失值的基础上计算误差,反向传导,能实现同时对CTC损失模块、Attention解码器模块及Conformer编码器模块的训练.文献5 提出了一种混合损失函数,此处可以构造类似的混合损失函数:Lhyb(y,ly1:n-1)=Alog Pcrc(ylx)+量纲一化层(1-)log PAtetio(y l x,hi1.r),XN1/2个前馈模块线性层卷积模块多头自注意力模块1/2个频谱增强前馈模块(5)式中:等号右侧前一部分为CTC损失函数,后一部分为Attention损失

26、函数;入为插值权重,入EO,1.2.3附加语言模型的重打分机制虽然端到端ASR模型能够直接将语音信号转换为对应的文本信息,但因其不借助包含文本信息的语言模型,没有考虑语义信息,并且中文有很多同音词,其训练也受到语料数据量的限制,以至于最终识别效果不佳;语言模型作为语音识别中的先验项,能够很大程度上判断语义和语法习惯的准确性,并且其训练抄本容易获取,训练代价小.因此,在端到端模型中引人语言模型进行重打分能够有效提高识别准确率,一般是在解码过程中通过浅层融合的方法实现二者的融合,其融合公式为score(y,lyi.n-1,hi.r)=Lhyb(y,ly1:n-1,h1.r)+log Plm(y,l

27、y1:n-1),式中:为权重系数,0,1;Lhyb(y,l y I:n-1,(1)ht.r)是在历史序列为y1:n-1且解码器输出为hi.r时(2)的联合解码损失值;log Plm(y,l y 1.n-1)是历史序列(3)为y到yn-1时的语言模型解码概率.(4)3试验结果及分析3.1试验数据及基本配置试验中使用的数据集为希尔贝壳开源的17 8 h数据集(AISHELL-1),由40 0 位带有中国不同地区口音的发音人录制而成,语料内容覆盖了社会生活的11个领域,语音质量较高.为得到更好的语料数据以提升训练效果,试验采用了增强音速的数据增强方法来扩充数据.一般认为,数据增强是模型训练前实施在数

28、据集上的操作1.语音信号特征提取的是频谱特征,用它进行模型的训练.Conformer模型的层数为12 层,每层维度2 0 48 维;Attention模块多头数为4,每层维度为256维.混合解码中的CTC所占权重为0.3,用其辅助训练.附加的语言模型采用的是Transformer语言模型,用其重打分获取更好的结果.(6)568江苏大学学报(自然科学版)第44卷3.2试验分析文中在AISHELL-1数据集上通过试验依次验证了 Conformer-CTC 模型、Conformer-CTC-LSTM 模型、Conformer-CTC-Transformer模型的效果,并将其与近几年主流的端到端模型在

29、AISHELL-1数据集上的效果进行了对比,试验验证得到各ASR模型的CER对比曲线如图4所示,试验结果数据如表3所示.140r120100%/a806040200369121518212427轮次/轮图4各ASR模型的CER对比曲线表3不同ASR模型在AISHELL-1数据集上的试验结果%CER模型名称验证集Conformer(Atention)12一Conformer-CTC4.90Conformer-CTC-LSTM4.80Conformer-CTC-Transformer4.60ResNet-GCFN1310.16TCN-Transformer-CTC64.96GSA-Transfor

30、mer 14 5.41由图4可见,3个模型在训练过程中的验证CER值曲线差距较小,其CER值均能够在训练过程中快速收敛.相对而言,从图4中0 4轮可以看出,Conformer-CTC-Transformer模型的验证CER曲线下降速度最快,其更易收敛,且在其后的训练轮次中的CER值基本保持最低.由表3试验数据可以清楚看到,使用CTC损失辅助训练的Conformer-CTC模型相对于纯Conformer(A t t e n t io n)端到端模型在测试集上的CER降低了0.49%;而附加语言模型重打分之后获得的模型效果达到最佳,Conformer-CTC-Transformer模型相对于Con

31、former-CTC-LSTM的 CER更低,相对于 Confor-mer-CTC模型CER降低了0.30%,而相对于纯Con-former(A t t e n t io n)端到端模型在测试集上CER获得了0.7 9%的降低.试验结果说明CTC损失能够一定程度上改善纯Conformer(A tte n tio n)端到端模型在训练中出现的不足,并且使用附加语言模型重打分能进一步提升模型的识别准确率。表3的数据表明,相比于其他端到端模型,文中的Conformer-CTC-Transformer模型也进一步降低了字错率,同时也清楚地展现了Conformer-CTC-Trans-former模型的

32、有效性.4结 论1)在AISHELL-1数据集上的测试结果中,使Conformer-CTCConformer-CTC-LSTM-Conformer-CTC-Transformer用CTC损失辅助训练的Conformer-CTC模型相对于纯Conformer(A t t e n t i o n)端到端模型在测试集上的字错率降低了0.49%,识别准确率有所提升.试验结果说明在使用CTC损失辅助基于Attention的En-coder-Decoder模型的训练中,CTC 损失在一定程度上能够改善纯Conformer(A t t e n t i o n)端到端模型在训练中出现的难以收敛以及顿与标签之间

33、对齐关系没有限制的问题2)在Conformer-CTC模型的训练中通过附加语言模型重打分之后,进一步提升了原有模型的识别准确率,使得模型在AISHELL-1数据集上的CER再测试集次降低.其中,Conformer-CTC-Transformer 模型在试5.695.205.004.9011.835.315.94验中测试集上的字错率降低至4.90%,试验结果达到最佳.3)通过与其他端到端模型比较可以看到,在使用CTC损失辅助训练纯Conformer(A t t e n t i o n)端到端模型的基础上,再附加语言模型进行重打分,最终获得的Conformer-CTC-Transformer模型的

34、识别准确率较高,说明该模型具有一定的有效性.参考文献(References)1DOKUZ Y,TUFEKCI Z.Mini-batch sample selectionstrategies for deep learning based speech recognitionJ.Applied Acoustics,DOI:10.1016/j.apacoust.2020.107573.2鱼昆,张绍阳,侯佳正,等语音识别及端到端技术现状及展望J.计算机系统应用,2 0 2 1,30(3):14-23.YU K,ZHANG S Y,HOU J Z,et al.Survey of speechrecog

35、nition and end-to-end techniques J.ComputerSystems&Applications,2021,30(3):14-23.(i nChinese)3邓慧珍.基于局部自注意力CTC的语音识别D哈尔滨:黑龙江大学,2 0 2 1.4DAS A,LI J Y,ZHAO R,et al.Advancing connectio-nist temporal classification with attention modeling C/569第5期柳永利等:基于多任务损失附加语言模型的语音识别方法Proceedings of the 2018 IEEE Inter

36、national Conferenceon Acoustics,Speech and Signal Processing.Piscataway:IEEE,2018:4769-4773.5杨威,胡燕.混合CTC/attention架构端到端带口音普通话识别J.计算机应用研究,2 0 2 1,38(3):755-759.YANG W,HU Y.Hybrid CTC/attention architecturefor end-to-end multi-accent Mandarin speech recognitionJ.Application Research of Computers,2021,

37、38(3):755-759.(in Chinese)6谢旭康陈戈,孙俊,等.TCN-Transformer-CTC的端到端语音识别J.计算机应用研究,2 0 2 2,39(3):699 703.XIE X K,CHEN G,SUN J,et al.TCN-Transformer-CTC for end-to-end speech recognition J.ApplicationResearch of Computers,2022,39(3):699-703.(i nChinese)7GULATI A,QIN J,CHIU C C,et al.Conformer:con-volution-au

38、gmented transformer for speech recognition C/Proceedings of the Annual Conference of the In-ternational Speech Communication Association.S.1.:International Speech Communication Association,2020:5036-5040.8 BAHDANAU D,CHOROWSKI J,SERDYUK D,et al.End-to-end attention-based large vocabulary speech re-c

39、ognition C/Proceedings of the 2016 IEEE Interna-tional Conference on Acoustics,Speech and Signal Pro-cessing.Piscataway:IEEE,2016:4945-4949.9BIADSY F,WEISS R J,MORENO P J,et al.Parro-tron:an end-to-end speech-to-speech conversion modeland its applications to hearing-impaired speech andspeech separat

40、ion C/Proceedings of the Annual Con-ference of the International Speech Communication Asso-ciation.Lous Tourils,Baixas,France:InternationalSpeech Communication Association,2019:4115-4119.10MA R,LIU Q,YU K.Highly efficient neural networklanguage model compression using soft binarization trai-ning C/P

41、roceedings of the 2019 IEEE AutomaticSpeech Recognition and Understanding Workshop.Pis-cataway:IEEE,2019:62-69.11葛轶洲,许翔,杨锁荣,等.序列数据的数据增强方法综述J.计算机科学与探索,2 0 2 1,15(7):12 0 7-1219.GE Y Z,XU X,YANG S R,et al.Survey on sequencedata augmentationJ.Journal of Frontiers of ComputerScience and Technology,2021,

42、15(7):1207-1219.(in Chinese)12YAO ZY,WU D,WANG X,et al.WeNet:productionoriented streaming and non-streaming end-to-end speechrecognition toolkit C/Proceedings of the 22nd AnnualConference of the International Speech CommunicationAssociation.S.1.J:International Speech Communica-tion Association,2021:

43、2093-2097.13朱学超,张飞,高鹭,等.基于残差网络和门控卷积网络的语音识别研究J.计算机工程与应用,2 0 2 2,58(7):185 191.ZHU X C,ZHANG F,GAO L,et al.Research onspeech recognition based on residual network and gatedconvolution network J.Computer Engineering and Ap-plications,2022,58(7):185-191.(in Chinese)14LIANG C D,XU M L,ZHANG X L.Transformer-basedend-to-end speech recognition with residual Gaussian-based self-attention C/Proceedings of the 22nd An-nual Conference of the International Speech Communica-tion Association.S.1.J:International Speech Commu-nication Association,2021:1495-1499.(责任编辑梁家峰)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服