收藏 分销(赏)

基于CNN-GRU-CTC的藏族学生普通话发音偏误检测.pdf

上传人:自信****多点 文档编号:2087478 上传时间:2024-05-15 格式:PDF 页数:5 大小:1.23MB
下载 相关 举报
基于CNN-GRU-CTC的藏族学生普通话发音偏误检测.pdf_第1页
第1页 / 共5页
基于CNN-GRU-CTC的藏族学生普通话发音偏误检测.pdf_第2页
第2页 / 共5页
基于CNN-GRU-CTC的藏族学生普通话发音偏误检测.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷第期 年月兰州文理学院学报(自然科学版)J o u r n a l o fL a n z h o uU n i v e r s i t yo fA r t sa n dS c i e n c e(N a t u r a lS c i e n c e s)V o l N o S e p t 收稿日期:基金项目:校级杰出青年科研人才培育计划项目(J C QN );甘肃省高校教师创新基金项目(B )作者简介:梁青青(),女,河北涞源人,讲师,硕士,研究方向为语音信号处理 E m a i l:q q c o m文章编号:()基于C NN G RU C T C的藏族学生普通话发音偏误检测梁青青,周

2、小燕,赵春艳(兰州文理学院 传媒工程学院,甘肃 兰州 )摘要:为了提高藏族学生学习普通话的发音水平,根据普通话和藏语发音特点设计并录制了一个偏误语音语料库,并结合卷积神经网络(C o n v o l u t i o n a lN e u r a lN e t w o r k,C NN)、门控循环单元(G a t e dR e c u r r e n tU n i t,G R U)技术和连接时序分类技术(C o n n e c t i o n i s tT e m p o r a lC l a s s i f i c a t i o n,C T C)搭建C NN G RU C T C声学模型,提

3、出了一种发音偏误检测的方法该方法将语音转换为一张图像作为输入,对完整的语谱图进行数据提取,利用深度全序列卷积神经网络进行建模,使用自动语音识别框架来进行发音偏误检测实验结果表明:在该模型下,系统检测准确率为 ,错误拒绝率为 ,联合错误率为 该方法可以有效检测出错误发音,性能优于其他模型,可以用于检测和纠正藏族学生学习普通话时的错误发音,提高藏族学生的普通话发音水平关键词:发音偏误检测;卷积神经网络;门控循环单元;连接时序分类中图分类号:T P 文献标志码:AC N N G R U C T CB a s e dD e t e c t i o no fP u t o n g h u aM i s

4、p r o n u n c i a t i o nB yT i b e t a nS t u d e n t sL I ANGQ i n g q i n g,ZHO UX i a o y a n,ZHA OC h u n y a n(S c h o o l o fM e d i aE n g i n e e r i n g,L a n z h o uU n i v e r s i t yo fA r t sa n dS c i e n c e,L a n z h o u ,C h i n a)A b s t r a c t:I no r d e r t o i m p r o v e t h

5、ep r o n u n c i a t i o n l e v e l o fT i b e t a ns t u d e n t s l e a r n i n gP u t o n g h u a,t h i sp a p e rd e s i g n sa n dr e c o r d s t h ee r r o rs p e e c hc o r p u sa c c o r d i n gt ot h ec h a r a c t e r i s t i c so fP u t o n g h u aa n dT i b e t a np r o n u n c i a t i

6、o n C o m b i n e dw i t hC o n v o l u t i o n a lN e u r a lN e t w o r k(C NN),G a t e dR e c u r r e n tU n i t(G RU)a n dC o n n e c t i o n i s tT e m p o r a lC l a s s i f i c a t i o n(C T C),am o d e lo fC NN G RU C T Ci sb u i l t,a n dap r o n u n c i a t i o ne r r o rd e t e c t i o nm

7、 e t h o d i sp r o p o s e d T h em e t h o dc o n v e r t st h es p e e c hi n t oa ni m a g ea si n p u t,e x t r a c t st h ed a t af r o mt h ec o m p l e t es p e e c hs p e c t r u m,u s e s t h ed e e pf u l ls e q u e n c ec o n v o l u t i o n a ln e u r a ln e t w o r kf o rm o d e l i n

8、g,a n du s e st h ea u t o m a t i cs p e e c hr e c o g n i t i o n f r a m e w o r kt od e t e c t t h ep r o n u n c i a t i o nb i a s T h e e x p e r i m e n t a l r e s u l t ss h o wt h a t t h es y s t e md e t e c t i o na c c u r a c yr a t e i s ,t h e f a l s er e j e c t i o nr a t e i

9、s ,a n dt h e j o i n t e r r o r r a t e i s u n d e r t h em o d e l T h em e t h o dc a ne f f e c t i v e l yd e t e c tm i s p r o n u n c i a t i o n T h ep e r f o r m a n c eo f t h i sm o d e l i ss u p e r i o rt ot h er e s u l t so f t h eo t h e rm o d e l s,w h i c hc a nb eu s e d t o

10、d e t e c tT i b e t a ns t u d e n t sm i s p r o n u n c i a t i o n so fP u t o n g h u a l e a r n i n ga n dp r o v i d ec o r r e c t i v e f e e d b a c kt oh e l pt h e mi m p r o v et h e i rP u t o n g h u ap r o n u n c i a t i o nl e v e l K e yw o r d s:m i s p r o n u n c i a t i o nd

11、e t e c t i o n;c o n v o l u t i o n a ln e u r a ln e t w o r k(C NN);G a t e dR e c u r r e n tU n i t(G RU);c o n n e c t i o n i s t t e m p o r a l c l a s s i f i c a t i o n(C T C)普通话作为中国这一多民族国家的通用语言,在推广文化教育、提升全民族素质、繁荣社会经济、促进各民族、各地区之间的交流发挥着非常重要的作用作为藏族学生,他们不仅要精通藏语,还要掌握普通话,这不仅可以提高藏族学生的语言表达能力,还

12、有利于他们适应新时代复杂多变的社会结构由于大部分藏族学生从小就用藏语交流,加上汉字储备量不够,导致藏族学生在学习普通话时存在不会发音、发音不准确、自信心不足等问题近年来,计算机辅助语音训练系统(C o m p u t e r A s s i s t e d P r o n u n c i a t i o n T r a i n i n gS y s t e m,C A P T)因可以帮助学习者及时发现和纠正错误发音,避免重复错误发音形成习惯,提高学习者的学习效率而受到学者的关注计算机辅助语音训练系统的关键技术之一是精确的语音识别技术卷积神经网络(C NN)不仅可以显著提高语音识别的准确度,而且

13、已经成功应用于C A P T中 I BM、微软、百度等多家机构相继推出了自己的C NN模型,在英文领域识别准确率达到,科大讯飞语音研究院王海坤等提出了深度全序列卷积神经网络的语音识别框架,并为汉母语人群开发了普通话在线训练系统基于上述研究,本文针对以藏语为母语的学习者发音偏误 问 题 进 行 研 究,提 出 基 于C NN G RU C T C的端到端的发音偏误检测方法,设计并录制了藏族学生的普通话发音偏误语料库该语料库覆盖了所有音节,设计了 种偏误类型,录制了 句语音语料进行测试,通过实验精确找出具体的发音偏误,并给出反馈,为他们提供面向计算机辅助发音训练系统的技术1语料库设计1 1.1 1

14、汉语发音特点汉语属于汉藏语系,现代汉语是语素音节文字从记录的语音单位来看,一个汉字和一个音节是相对应的一个汉字的读音就是一个带调音节除了零声母外,音节由声母和韵母构成,而韵母又包括韵头、韵腹和韵尾一个音节可以没有辅音声母,也可以没有韵头和韵尾,但都有声调和韵腹构成音节的汉语拼音有 个声母,个韵母,阴平、阳平、上声和去声个声调1 1.2 2藏语特点藏语是由字母组合形成的拼音文字,每个字母都有自己的发音字母的组合是由音与音之间的拼合而组成的藏语有 个辅音字母和个元音字母,即所有藏文字都是由这 个字母组成的1 1.3 3文本语料设计发音偏误检测需要对藏语发音者与汉语普通话发音偏误情况进行分析,文本语

15、料库应具备以下条件:文本语料库应覆盖汉语普通话中所有由声母、韵母和声调组合而成的音节;藏语在发音时浊辅音和辅音韵尾趋于简化,在构建文本语料库时需要对这两种情况做到全覆盖;需要考虑声调发生变化的情况,例如:由个三声的字组成词时,第个字通常需变为二声;一些词语及句子中存在声调变成轻声的情况1 1.4 4语音语料的录制()录音者应该尽量选择普通话发音不是很好的且藏语为母语的学生,他们平时说普通话较少,发音更容易出错,对发音偏误检测更具有代表性;()录音者在说普通话时应存在一定的口音,这样对偏误检测覆盖更广泛;()录音环境选择无背景噪声的专用录音棚,录音设备选择专用麦克风,通过电脑软件提示声音的频率和

16、音量大小,保证声音大小前后一致,增加对检测的准确度;()音频语料的采样率设置为 k H z,采样大小为 位按照以上要求,本文设计了 句以藏语为母语的学生学习普通话的文本语料,并以此建立藏族学生学习普通话的偏误语音语料库语料库由名(男女)藏族的大一学生参与录制2模型建立采用基于语音识别的框架,分别考察发音音素偏误和发音声调偏误2 2.1 1发音偏误整体检测流程文中 使 用 基 于 自 动 语 音 识 别(A u t o m a t i cS p e e c hR e c o g n i t i o n,A S R)框架来进行发音偏误检测,具体检测的流程如图所示系统首先输入要检测的语句,将学习者的

17、语音通过A S R检测器来进行检测识别,同时通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系,以及对应的标准化转录;然后,系统根据识录是否一致来判断发音的正确性;最后,根据二者不同向发音者反馈纠正方法兰州文理学院学报(自然科学版)第 卷图发音偏误检测流程2 2.2 2发音偏误 C CN NN NG GR RU UC CT TC C 模型的建立卷积神经网络(C NN)由输入层、隐含层和输出层组成,隐含层包括C NNV卷积层、R e L U激活层、P o o l池化 层、F C全连接 层,具有学 习 能力本文利用深度全序列卷积神经网络进行建模它将一句语音转换为一张图像作为输入,避免

18、语音信号进行傅里叶变换后使用滤波器来提取特征导致频谱上信息的丢失该模型由部分组成,具体结构如图所示图C N N G R U C T C结构第部分为输入层,输入完整包含原始频谱信号的二维语谱图由于使用梯度下降算法进行学习,该数据不能直接放进卷积神经网络进行训练,因此,需要对其进行标准化处理为了使批处理中的所有语句长度相同,需要对输入数据进行零填充;第部分是卷积,主要对输入数据进行特征提取,这一部分包含了个C NN层,个最大池化M a x P o o l层,然后是对其进行归一化处理这部分通过对输入层的数据进行提取和处理,得到详细的声学特征参数;第部分是G RU层,它可以更好地捕捉深层连接,并改善梯

19、度消失问题,用来获得更详细的时间声学特征;第部分是时间分布密集层(ML P)层,该层输出值被传递到S o f t m a x逻辑回归进行分类输出;最后一部分是C T C输出层,用来生成预测音素序列3实验及结果分析3 3.1 1模型训练该模型将标准发音库作为训练集,将偏误发音库作为测试集,语谱图作为整个模型的输入特征参数 首先对语音信号进行加窗、分帧和提取语谱图本实验使用的窗函数为汉明窗,以 m s为一帧,帧移为 m s 卷积层是由个卷积卷积池化对组成,卷积层参数包括卷积核大小、步长和填充,个卷积层的卷积核大小设置为,步长为 M a x P o o l最大池化层左右是特征融合和降维,每个池化层的

20、池化窗口大小设置为训练过程中学习率(L e a r n i n gR a t e)设置为 ,批次大小(B a t c hS i z e)设置为,数据轮次(E p o c h)设置为 次,采用T e n s o r f l o w和K e r a s工具包来实现模型训练3 3.2 2评价指标实验的结果共有种:正确接受(T r u eA c c e p t a n c e,T A)一个待测试正确发音样本,经过算法对比被检测为正确发音;错误拒绝(F a l s eA c c e p t a n c e,F A)一个待测试正确发音样本,经过算法 对 比 被 检 测 为 错 误 发 音;错 误 接 受(

21、F a l s eA c c e p t a n c e,F R)一个待测试错误发音样本,经过算法对比被检测为正确发音;正确拒绝(T r u eR e j e c t i o n,T R)一个待测试错误发音样本,经过算法对比被检测为错误发音根据这种检测结果对系统的性能通过错误接受率(F a l s eA c c e p t a n c eR a t e,F A R)、错误拒绝率(F a l s eR e j e c t i o nR a t e,F R R)、检测准确率(D e t e c t i o nA c c u r a c yR a t e,D A R)来衡量 F A R(式)表示发音

22、者的错误发音被系统认为正确的百分比,F F R(式)表示发音者的正确发音被系统认为错误的百分比,D A R(式)表示系统的检测结果与发音者的发音结果一致的百分比,这个评计算公式为:F A RF AF AT R()F R RF RF RT A()第期梁青青等:基于C NN G R U C T C的藏族学生普通话发音偏误检测DA RT AT RF AF RT AT R()3 3.3 3实验结果在上述个评价指标中,在保证较高正确率的前提下,降低另外两类错误率实验结果表明,在该模型下,系统检测准确率为 ,错误拒绝率为 ,联合错误率为 ,与文献 相比各个指标都取得了较好效果,不同模型实验结果如表所列同时

23、本文的数据不需要手工标注和强制对齐数据,该模型可以检测声母、韵母和声调偏误,检测范围更广表不同模型实验结果声学模型F A RF R RD A RGMM HMM D NN HMM D F C NN C T C C NN G RU C T C 为了分析具体的发音偏误情况,本文将发音偏误分为声母偏误、韵母偏误和声调偏误种类型,并对其做了统计,对比情况如图所示图类偏误占比对比从图可知,藏族学生在学习普通话时声调的偏误最多,其次是韵母,声母相对比较容易掌握虽然汉语和藏语都属于同一个语系,但是这两者的声调系统差异较大,在学习中需要加强由于声调的偏误较多,本文在阴平、阳平、上声、去声和轻声中分析了每种声调的

24、偏误情况,结果如图所示图种声调发音偏误检测结果从图可知,藏族学生在学习普通话时,对阴平、上声和去声的区分程度较差,在学习的过程中需要对这种声调进行加强阴平和轻声相对比较容易感知,学习起来比较容易实验中藏族学生对普通话的 种声母感知检测如图所示实验结果表明,藏族学生在普通话发音中,存在n与l、g与k、h与f分不清楚的情况,舌根前音z、c、s和舌根后音z h、c h、s h也容易被混淆,这些声母在学习中本就是难点,因此这几种情况需要特别加强练习图 种声母发音偏误检测结果 种韵母发音偏误统计结果如图所示,本实验重点研究前 种偏误情况,这 种韵母发音偏误的统计结果如图所示结果显示,错误频率最高的为“N

25、 g”,也就是日常的“嗯”字,该音容易被发音为“e n”另外发音偏误主要集中在韵尾为“n g”的情况,也就是普通话中的后鼻音,多数情况下这种音节容易被发音为前鼻音,以上结果需要在学习时加强关注图 种声母发音偏误检测结果图 种高频韵母发音偏误检测结果兰州文理学院学报(自然科学版)第 卷4结论本文设计并录制了藏族学生学习普通话的发音偏误语料库,建立了基于C NN G RU C T C模型的发音偏误检测系统实验结果表明该方法可以有效提供发音偏误信息,为藏族学生学习普通话提供帮助今后我们会选择更多来自不同方言区的人加入语料录制,继续完善语料库建设,将其它深度学习方法应用到发音偏误检测上提高检测精度参考

26、文献:涂涛,李彭曦,少数民族地区双语教学新途径 藏区双语多媒体字源识字汉字教学研究J中国电化教育,():李娟新媒体技术在藏汉双语教育实践中的应用研究 以甘肃省甘南藏族自治州为例J西北师范大学学报(社会科学版),():段海凤藏语安多方言词重音对汉语普通话声调习得的影响D北京:中央民族大学,屈乐园,解焱陆,张劲松基于发音特征的发音偏误趋势检测研究J北京大学学报(自然科学版),():周世华基于C NN的藏族学生国家通用语发音偏误检测研究D兰州:西北师范大学,张劲松,高迎明,解焱陆基于D NN的发音偏误趋势检测J清华大学学报(自然科学版),():甘振业,周世华,曾浩,等基于D F C NN C T C

27、端到端的藏族学生普通话发音偏误检测J西北师范大学学报(自然科学版),():,王海坤,潘嘉,刘聪语音识别技术的研究进展与展望J电信科学,():依皮提哈尔买买提,吾守尔斯拉木面向新疆双语教学的远程教学系统的设计与实现J中文信息学报,():张珑汉语普通话发音质量自动评测方法研究D哈尔滨:哈尔滨工业大学,杨龙飞,解焱陆,张劲松基于卷积神经网络的发音偏误趋势检测A第十四届全国人机语音通讯学术会议(N CMM S C )杭州:浙江工学院,:HU W,Q I ANY,S OON GFK,e t a l I m p r o v e dm i s p r o n u n c i a t i o nd e t e

28、 c t i o n w i t h d e e p n e u r a ln e t w o r kt r a i n e da c o u s t i cm o d e l sa n dt r a n s f e rl e a r n i n gb a s e dl o g i s t i cr e g r e s s i o nc l a s s i f i e r sJ S p e e c hC o mm u n i c a t i o n,:W I T TSM,YOUNGSJ P h o n e l e v e lp r o n u n c i a t i o ns c o r i

29、n g a n d a s s e s s m e n t f o ri n t e r a c t i v e l a n g u a g el e a r n i n gJ S p e e c hC o mm u n i c a t i o n,():责任编辑:李岚(上接第 页)J I N HJ,S U ISH,Z HUCX,e ta l A x i a l f r e ev i b r a t i o no f r o t a t i n gF Gp i e z o e l e c t r i cn a n o r o d sa c c o u n t i n gf o rn o n l

30、 o c a la n ds t r a i ng r a d i e n te f f e c t sJ J o u r n a lo fV i b r a t i o nE n g i n e e r i n g&T e c h n o l o g i e s,:胡统号,沈纪苹,姚林泉弹性边界径向功能梯度压电环板面内振动J振动与冲击,():刘旭,姚林泉热环境中旋转功能梯度纳米环板的振动分析J应 用 数 学 和 力 学,():韩振南,随岁寒,刘金建局部支承功能梯度板的自由振动分析 J海 南 师 范 大 学 学 报(自 然 科 学 版),():S U ISH,Z HUCX,L IC,e ta

31、l F r e ev i b r a t i o no fa x i a l l yt r a v e l i n gm o d e r a t e l y t h i c kF Gp l a t e s r e s t i n go ne l a s t i cf o u n d a t i o n sJ J o u r n a lo fV i b r a t i o nE n g i n e e r i n g&T e c h n o l o g i e s,:KUMA RV,S I N GHSJ,S a r a nV H,e ta l V i b r a t i o nc h a r a

32、 c t e r i s t i c so fp o r o u sF GM p l a t e w i t hv a r i a b l et h i c k n e s sr e s t i n go nP a s t e r n a ksf o u n d a t i o nJ E u r o p e a nJ o u r n a l o fM e c h a n i c s A/S o l i d s,:李世荣功能梯度材料明德林矩形微板的热弹性阻尼J力学学报,():S HE NJP,WANGPY,G AN W T,e t a l S t a b i l i t yo fv i b r

33、a t i n gf u n c t i o n a l l yg r a d e dn a n o p l a t e s w i t ha x i a lm o t i o nb a s e do nt h en o n l o c a ls t r a i ng r a d i e n tt h e o r yJ I n t e r n a t i o n a lJ o u r n a lo fS t r u c t u r a lS t a b i l i t ya n dD y n a m i c s,():责任编辑:李岚第期梁青青等:基于C NN G R U C T C的藏族学生普通话发音偏误检测

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服