收藏 分销(赏)

基于听觉特性和发声特性的语种识别.pdf

上传人:自信****多点 文档编号:642716 上传时间:2024-01-22 格式:PDF 页数:8 大小:4.03MB
下载 相关 举报
基于听觉特性和发声特性的语种识别.pdf_第1页
第1页 / 共8页
基于听觉特性和发声特性的语种识别.pdf_第2页
第2页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、基于听觉特性和发声特性的语种识别华英杰,朵琳*,刘晶,邵玉斌(昆明理工大学信息工程与自动化学院,云南昆明650500)摘要:针对现有的方法在低信噪比环境下语种识别性能不佳,提出了一种耳蜗滤波系数和声道冲激响应频谱参数相互融合的语种识别方法.该方法表征了人的耳蜗听觉特性和发声特性,首先提取模拟人耳听觉特性的耳蜗滤波系数,再融合表征人的发声特性的声道冲激响应频谱参数,最后采用高斯混合通用背景模型对所提方法在语种识别上进行测试.实验结果表明,在 4 种信噪比环境下,该方法优于其他对比方法;相对于基于深度学习的对数 Mel 尺度滤波器能量特征,识别正确率提升了 16.1%,与其他方法相比有较大程度的提

2、升.关键词:语种识别;耳蜗滤波系数;声道冲激响应频谱参数;高斯混合通用背景模型中图分类号:TN912.3文献标志码:A文章编号:02587971(2023)04080708语种识别(LanguageIdentification,LID)是通过计算机判断某段未知语音的所属类别,是跨语言智能语音处理系统的前端1,其被广泛应用于各种实际场景,如:国际会议、军事监听、出国旅游等.目前,语种识别技术在无噪环境和长语音上已经达到工业水准,但是在嘈杂环境、短语音和高度混淆语种等情况下,识别性能依然不佳.传统的语种识别主要基于声学特征和音素层特征.底层声学特征主要包括感知线性预测系数(PerceptualLi

3、nearPredictive,PLP)2、梅尔频率倒谱系数(Mel-frequencyCepstralCoefficient,MFCC)3、伽玛通频率倒谱系数(GammatoneFrequencyCep-strumCoefficient,GFCC)4、对数 Mel 尺度滤波器能量(LogMel-ScaleFilterBankEnergies,Fbank)5等.目前主流的语种识别模式主要是支持向量机(SupportVectorMachines,SVM)6和混合高斯模型全局背景模型(GaussianMixtureModel-UniversalBack-groundModel,GMM-UBM)7等.

4、基于音素层特征主要解决的是不同语种的不同音素集合问题.其主流模型包括并行音素识别器后接语言模型(Parallel Phone Recognition followed by LanguageModeling,PPRLM)8等.由于神经网络的快速发展,越来越多的研究倾向于将神经网络模型应用于语种识别中,主要包括卷积神经网络、深度神经网络和循环神经网络等.与传统的语种识别模型相比,取得了更高的识别准确率.Montavon9将含有时域和频域信息的语谱图作为卷积神经网络的输入,获得高于声学特征的识别准确率.Jiang 等10通过深度神经网络较强的特征提取能力,在 i-vector 语种识别方法上引入深

5、瓶颈层特征方法,该特征在面对大量的语料信息时,尤其是对于实时性要求比较高的语种识别任务时,实用性较好.Lopez-Moreno 等11利用特征提取、特征变换以及分类器融合在一个神经网络模型中,提出一种端到端的语种识别模型.Geng 等12将注意力机制模型引入到语种识别的模型中,并取得了较大的性能提升.Watanabe 等13提出一种基于语种无关架构的端到端模型处理多语种识别的问题.Cai 等14利用底层声学特征直接学习语种类别信息,提出一种基于可学习的字典编码层的端对端系统,使得语种识别性能得到提升.Snyder等15提出了 X-vector 方法,将不定长度的语音片段应用在时延神经网络映射到

6、固定维度的 embedding 中,这个embedding 便称作 X-vector,相比基于 I-vector 方法,在短时语音识别取得了更好的效果.Jin 等16提出了从网络中间层获取语种区分性的基本单元特征.收稿日期:2022-05-24;接受日期:2022-07-28;网络出版日期:2022-09-17基金项目:国家自然科学基金(61962032);云南省科技厅优秀青年项目(202001AW07000).作者简介:华英杰(1999),女,河南人,硕士生,主要研究语种识别.E-mail:.*通信作者:朵琳(1974),女,云南人,博士,副教授,主要研究智能信息处理、下一代网络.E-mai

7、l:.云南大学学报(自然科学版),2023,45(4):807814JournalofYunnanUniversity:NaturalSciencesEditionDOI:10.7540/j.ynu.20220243Bhanja 等17利用色度特征与 MFCC 特征融合,使得语种识别性能得到很大的提高,但计算量增大.Garain 等18利用底层声学特征将其转化为图像信息,放入到卷积神经网络中进行识别,此方法鲁棒性能较差,特征表现形式单一.在时延神经网络基础上,韩玉蓉等19利用多头自注意力双支流 X-vector 网络,使用多头自注意力机制替换池化层,增大了有效特征权重,并针对样本数不均衡及难分

8、类问题引入类别权重因子和调制因子,使得训练模型的损失函数得到了改进.但上述方法在复杂噪声环境下,语种识别正确率较低.针对在低信噪比环境下语种识别性能不佳问题,本文提出了一种结合人的听觉特性和发声特性的语种识别方法,在很大程度上提高了低信噪比环境下识别准确率.首先根据人耳听觉感知具有的非线性特点,引入耳蜗滤波器模拟听觉特性,并提取耳蜗倒谱系数(CochlearFilerCepstralCoefficents,CFCC)特征;再根据人的发声特性提取声道冲激响应频谱参数(SpectralParametersofChannelImpulseResponse,SCIR)特征,减少说话人信息的影响,增强语

9、种信息;最后融合听觉特性和发声特性得到融合特征 CFCC+SCIR 特征.测试结果表明,该特征在噪声环境下识别性能较高,具有一定的抗干扰性.1模型搭建x(n)=s(n)+w(n)s(n)w(n)1.1构建带噪语音模型带噪语音信号定义为,其中,为原语音,为高斯白噪声,其均值为 0,平均信噪比(SignalNoiseRatio,SNR)定义为:rSN=10lgHn=1s2(n)Hn=1w2(n),0 n H,(1)Hn=1s2(n)HHn=1w2(n)SNR=5 dB式中:是纯语音信号能量之和,为语音的总采样点数,是白噪声信号能量之和.不同信噪比下的语音信号局部波形图如图 1 所示.从图 1 可以

10、看出,随着信噪比的降低,语音信号被噪声淹没的波形面积增大,当时,只有部分强语音信号被凸显出来,导致识别困难.K1.2GMM-UBM 语种识别模型采用混合高斯模型全局背景模型(GaussianMixtureModel-Uni-versalBack-groundModel,GMM-UBM)作为语种识别后端,能够准确识别判断出不同语言在共同背景环境之间的区别,具有较高的鲁棒性,并且在训练集数据量少的环境下能够得到高混合度的模型.基于 GMM-UBM 的语种识别模型框架如图 2 所示.该模型先对输入的 M 种语种背景语音分别进行听觉特征提取和发声特征提取,将两种特征进行融合,输入到 UBM 模型进行训

11、练;再对目标语音也分别提取听觉特征和发声特征后进行特征融合;然后输入到 GMM 模型进行训练.训练完后将 UBM 训练得到的公共模型与 GMM 训练得到的语种模型通过模型自适应得到种语种模型,根据测试语种与语种模型对比结果判定语种.2语种特征提取及融合特征提取是语种识别中非常关键的步骤之一,特征的鲁棒性高低与否以及能否高效区分语种都对后期语种识别性能有着关键的影响.本文提出的基于听觉特性和发声特性的融合特征提取流程如下:首先提取耳蜗倒谱系数特征,再提取声道冲激响应频谱参数特征,最后从帧级别的角度进行特征融合,得到融合特征集.具体流程如图 3 所示.(n)L2(R)(n)2.1基于听觉特性的语种

12、特征提取人耳对声音的敏感度主要受声音的方位、响度、音调及音色等因素的影响.对于细微的声音,只增加响度,人耳便可以感受到,但当响度增大到某一值后,再增大响度人耳听觉却没有明显的变化.因此将人耳受响度因素影响的这一听觉特性定义为“非线性”特性.CFCC 可以很好地模拟了人耳听觉这一特性.CFCC 特征参数提取过程主要包括听觉变换、毛细胞函数、非线性变换和离散余弦变换20.听觉变换是利用小波变换实现滤波的,能够很好地实现人耳窝听觉感知的非线性结构.首先定义一个耳蜗滤波函数,要求满足下面 4 个公式.+w(n)dn=0,(2)+w|(n)|dn ,(3)808云南大学学报(自然科学版)http:/第4

13、5卷+w|()|2d=C,0 C 0,0 =3,=0.2u(n)baafCfL式中:,和 的取值决定了耳蜗滤波函数的频域形状和宽度,这里取经验值.为单位步进函数,为随时间可变的实数,为尺度变量,为初始相位.在一般情况下,可由滤波器组的中心频率和最低中心频率决定,即:a=fLfC.(8)z(n)T(a,b)将式(7)代入(6)即可得到经听觉变换的输出.毛细胞函数可以将耳蜗的内毛细胞经听觉变换输出后的语音信号转变为人脑可分析的电信号,其模拟过程表达式为:h(a,b)=T(a,b)2,(9)S(i,j)=1dl+d1b=1h(i,b),l=1,L,2L,;i,j,(10)d=max3.5i,20 m

14、s diiii=1/fCLL=d/2 j式中:,是第 频带毛细胞函数的窗长;是第 个滤波器中心频带中心频率的时间长度,;为帧移,一般情况下,取;是窗的个数.S(i,j)将式(10)的输出再次进行响度函数的尺度变换.文献 20 采用非线性幂函数变换,利用图2GMM-UBM 语种识别模型框架Fig.2ThemodelframeworkofGMM-UBMlanguagerecognition图3特征提取流程图Fig.3Theflowchartoffeatureextraction810云南大学学报(自然科学版)http:/第45卷y(i,j)=S(i,j)0.101(11)y(i,j)15 jY进行

15、模拟.非线性幂函数可粗略近似为听觉神经元发放率强度曲线,且非线性幂函数的特性与人耳听觉相符,即输出的动态特性不完全取决于输入量的幅度.最终利用离散余弦变换对进行去相关性得到维的特征矩阵,得出 CFCC 特征参数.2.2基于发声特性的语种特征提取在整个发声系统中主要包含两种参数模型,即声门激励脉冲频谱(激励模型)和声道冲激响应频谱(声道模型)21.声道是由声道的气管控制的,属于分布参数系统,可以看作是谐振腔,包含很多谐振频率.谐振频率是由每一瞬间的声道外形决定的,这些谐振频率称为共振频率,是声道的重要声学特性.SCIR 特征还包含元音和发声方式等语种信息,因此可以将其作为语种特征.SCIR 特征

16、参数提取过程具体步骤如下:x(n)z(n)步骤1对进行预加重处理,提升信号的高频部分,得到.z(n)=256=128jizi(n)步骤2对进行分帧处理,帧长,帧移,对于分帧后得到 帧信号,第 帧的信号为.zi(n)zi(k)zi(k)ui(k)步骤3对每一帧信号进行离散傅里叶变换得到,并对每个数据取模得到.步骤4根据 Savitzky-Golay 滤波器原理,利用每个窗口上拟合的二次多项式对数据进行平滑处理,使之减少语音噪声以及频谱突变的影响.在最大限度地保留语音特征的条件下对噪声进行抑制,平滑处理后的信号为:yi(k)=M=Mh()ui(k),1 k B,(12)h()MM=5式中:为平滑滤

17、波器的抽样响应;为平滑处理窗口长度的一半,由实验结果证实,当时,效果较好.yi(k)步骤5对取对数,更好地描述听觉系统:si(k)=10lg|yi(k)|.(13)si(k)ci(n)步骤6对进行逆离散傅里叶变换处理,即取倒谱,目的是将声门激励脉冲和声道冲激响应更好有效分离,求倒谱后得到.步骤7因为倒谱具有对称性的特点,所以将倒谱中的第 30 条谱线为界进行划分.因此 130和 227256 区间构成声道冲激响应倒谱序列:gi(n)=ci(n),1 n 30或227 n 2560,31 n 226,(14)gi(n)式中:为声道冲激响应倒谱序列,其构建的长度为 256.gi(n)ri(k)步骤

18、8对进行离散傅里叶变换,然后取实数部分.由于两边是对称性的,因此可以只取前半部分,得到声道冲激响应频谱.ri(k)C=6221i22 jG步骤9对取样,由实验可得间隔点个数,为了使训练的数据量少且大量语种信息不被破坏,故加快训练速度和识别速度,得到的第 帧取样后的 SCIR 特征向量,将每帧特征向量融合得到该段语音的维的特征矩阵:gi=ri(1),ri(C),ri(2C),ri(D)T,(15)Dri(k)式中:为最后一个取样点对应中的位置.2.3基于听觉和发声特性的语种特征融合CFCC 特征只模拟了听觉特性,并没有进行说话人信息的抑制,说话人信息属于干扰信息,而 SCIR特征可以有效地抑制说

19、话人信息的干扰,但是无法很好地反映人耳听觉特性及语音信息.因此为了得到抗干扰性能更佳的语种特征集,本文提出将包含听觉特性的特征 CFCC 和包含发声特性的特征SCIR 融合得到新的特征集 CFCC+SCIR.在提取CFCC 特征的基础上,加入反映不同语种的发声方式和声道形态上存在差异的 SICR 特征.融合特征既模拟了人耳的听觉特性又包含了不同语种的发声特性,还在一定程度上抑制了说话人信息和噪声信息的干扰,可以更好地表示不同语种的本质特征,具有更好的鲁棒性.GY本文从帧级别的角度进行特征融合,将 15 维的 CFCC 特征矩阵和 22 维的 SCIR 特征矩阵 特征进行融合,融合公式如下:R=

20、GY,(16)R37 j式中:为维的融合特征矩阵 CFCC+SCIR.3实验结果与分析f=8 000 Hzt=10 sK=5本研究采用的数据集来自中国国际广播电台的广播音频语料库,音频经过人工处理,剔除了干扰因素,为采样率、时长的单通道的语音段.包括汉语、藏语、维吾尔语、英语、哈萨克斯坦语等 5 种语种.训练集采用的语种数目,每种语种 300 条,其中 50 条为纯净语音,其第45卷华英杰等:基于听觉特性和发声特性的语种识别811SNR=5 25 dBSNR=5,0,5,10 dB他 250 条分别与白噪声构建的带噪语音.测试集每种语种171 条,分别与白噪声构建形成的 4 种带噪测试语料库.

21、UBM 自适应模型采用的语种数目随机,只要该数据为广播数据即可,选取 1675 条随机广播音频.采用识别正确率作为评价指标,计算公式如下:R=Ah+Az+Aw+Ay+AsN%,(17)AhAzAwAyAsNR式中:、为每种语种识别正确数,为总识别数,为平均识别正确率.3.1GMM-UBM模型混合度实验本文选用 13维静态 CFCC 特征参数,分别对 16、32、64、128等 4 种不同混合度进行训练测试.不同混合度的GMM-UBM 模型的识别正确率如表 1 所示.表1不同混合度的 GMM-UBM 模型识别正确率Tab.1Recognition accuracy of GMM-UBM mode

22、ls withdifferentmixturedegrees%信噪比/dB混合度163264128523.624.521.825.1024.827.923.526.8565.367.267.866.61074.278.078.377.1从表 1 可知,在5dB 和 0dB 下识别性能没有太大的差别,识别性能都不佳.在 5dB 和 10dB 下混合度在 64 时识别性能最佳,但是只比混合度为32 时分别提高 0.6 和 0.3 个百分点,然而训练识别时间却多出 1 倍.因此,综合考虑本文的模型混合度设为 32.3.2基于听觉特性的语种识别实验本文设计 4组实验,实验 13 为对比实验,实验 4

23、为本文提出基于听觉特性的识别方法.在背景噪声为白噪声的环境下,分别验证不同信噪比下所提出的语种识别方法的有效性及性能,并分析其优劣的原因.实验 14分别提取 64 维对数 Mel 尺度滤波器能量(Fbank)5、13 维静态 MFCC3、13 维静态GFCC4、15 维 CFCC 特征作为语种特征,实验结果如表 2 所示从表 2 可以看出,与常见的 MFCC 特征和GFCC 特征相比,本文提出的 CFCC 特征在识别性能上具有明显的优势.相对于 GFCC 特征,4 种信噪比下分别提升了 3.5、3.6、6.6 和 8.8 个百分点.由于 CFCC 特征采用的是非线性幂函数,可以更好地模拟听觉神

24、经元发放率,而且 CFCC 特征是基于耳蜗滤波器的听觉变换特征,更好地模拟了人的听觉特性.与 Fbank 特征相比,CFCC 特征在 5dB 和10dB 下识别性能更好,在5dB 和 0dB 下识别性能有所下降.由于 Fbank 特征采用的是残差神经网络模型进行训练识别,对噪声具有一定的抑制作用,但是在高信噪比下,CFCC 特征的优势就更加明显,在 5dB 和 10dB 下分别提升了 3.6 和 6.7 个百分点.3.3基于听觉特性和发声特性的语种识别实验从表 2 可知本文提出的 CFCC 特征具有在高信噪比下具有明显优势,在低信噪比下依然性能不佳.因此本文基于人的听觉特性和发声特性出发,提出

25、了融合两种特性的融合特征集(CFCC+SCIR).下面设计的 4 组实验,实验 13 为对比实验,实验 4为本文提出的融合特征实验.分别验证不同信噪比下,本文提出的基于听觉特性和发声特性的语种识别方法的有效性及其优劣的原因.实验 14 分别提 取 64 维 Fbank、13 维 S-GFCC+PCA22、22 维SCIR21、37 维 CFCC+SCIR 特征作为语种特征,实验结果如表 3 所示.表3基于听觉特性和发声特性的语种识别正确率Tab.3Correctrateoflanguagerecognitionbasedonauditoryandvocalcharacteristics%识别实

26、验SNR/dB50510Fbank26.332.563.671.3S-GFCC+PCA33.249.369.676.7SCIR32.141.464.480.9CFCC+SCIR38.659.177.782.5从表 3 可以看出,本文提出 CFCC+SCIR 特征具有明显优势.相对于采用深度学习的 Fbank 特征,在 4 种信噪比下分别提升了 12.3、26.6、14.1 和表2基于听觉特性的语种识别正确率Tab.2Correctrateoflanguagerecognitionbasedonauditorycharacteristics%识别实验SNR/dB50510Fbank26.332.

27、563.671.3MFCC20.923.251.865.9GFCC21.024.360.669.2CFCC24.527.967.278.0812云南大学学报(自然科学版)http:/第45卷11.2 个百分点.由于 CFCC+SCIR 特征从人的发声和听觉进行出发,具有一定的抗干扰能力.与SCIR 特征相比,也在性能上具有一定的提升,由于 SCIR 特征只研究了人的发声特性,而 CFCC+SCIR 特征还结合了人的听觉特性.与 S-GFCC+PCA 特征相比,CFCC+SCIR 特征在 0dB 和 5dB上提升明显,分别提升了 9.8 和 8.1 个百分点.3.4不同语种识别方法的平均识别正确

28、率从平均识别正确率对比本文方法的优势,不同方法的平均识别正确率如图 4 所示.平均识别正确率的定义如下:Ra=R5 dB+R0 dB+R5 dB+R10 dB4,(18)R5 dBR0 dBR5 dBR10 dBRa式中:、分别是不同信噪比下的识别正确率,是 4 种信噪比下的平均识别正确率.图4不同方法的平均识别正确率Fig.4Averagerecognitionaccuracyofdifferentmethods从图 4 可以看出,4 种信噪比下,MFCC 特征识别性能最差,CFCC+SCIR 特征识别性能最佳.相对于 Fbank 特征、MFCC 特征、GFCC 特征、S-GFCC+PCA

29、特征、SCIR 特征分别提升了 16.1、24、20.7、7.3 和 9.8 个百分点.本文提出的方法很好地结合了人的听觉特性和发声特性,从而增强了特征的抗干扰能力.4总结针对低信噪比环境下语种识别性能不佳,提出一种基于人耳的听觉特性和人的发声特性的语种识别方法.首先利用人的发声特性提取 SCIR 特征,再模拟人耳的听觉特性提取 CFCC 特征,从而得到最终的 CFCC+SCIR 特征.从理论分析和仿真实验结果可以看出,本文提出的 CFCC+SCIR 特征具有一定的抗噪性能,在 4 种信噪比下明显优于其他方法.后续针对该方法在极低信噪比下识别性能不佳继续进行研究,并针对真实的噪声环境展开研究.

30、参考文献:LiHZ,MaB,LeeK.Spokenlanguageidentification:From fundamentals to practiceJ.Proceedings theIEEE,2013,101(5):1136-1159.DOI:10.1109/JPROC.2012.2237151.1HermanskH.PerceptualLinearPredictive(PLP)ana-lysisofspeechJ.TheJournaloftheAcousticalSoci-etyofAmerica,1990,87(4):1738-1752.DOI:10.1121/1.399423.2D

31、avisS,MermelsteinP.Comparisonofparametricrep-resentations for monosyllabic word identification incontinuously spoken sentencesJ.IEEE Transactionson Acoustics,Speech and Signal Processing,1980,28(4):65-74.3张卫强,刘加.基于听感知特征的语种识别J.清华大学学报(自然科学版),2009,49(1):78-81.DOI:10.3321/j.issn:1000-0054.2009.01.021.Zh

32、angWQ,LiuJ.Languagerecognitionbasedonaud-itoryperceptionfeaturesJ.JournalofTsinghuaUni-versity(NaturalScienceEdition),2009,49(1):78-81.4Zhu D,Huang M,Yang J J,et al.Identification ofspokenlanguagefromwebcastusingdeepconvolution-alrecurrentneuralnetworksC/InternationalConfer-enceonInformationTechnolo

33、gy,Sanya,China,2019:1147-1152.5CampbellWM,SturimDE,ReynoldsDA.SupportvectormachinesusingGMMsupervectorsforspeakersverificationJ.IEEE Signal Processing Letters,2006,13(5):308-311.DOI:10.1109/LSP.2006.870086.6ZissmanMA.Comparisonoffourapproachestoauto-matic language identification of telephone speechJ

34、.IEEE Transactions on Speech and Audio Processing,1996,4(1):31-38.DOI:10.1109/TSA.1996.481450.7YanYH,BarnardE.Anapproachtoautomaticlan-guage identification based on language dependentphone identificationC/Proc of IEEE Int Conf onAcoustics,SpeechandSignalProcessing,Detroit,MI,USA,1995:3511-3514.8Mont

35、avonG.Deeplearningforspokenlanguageidenti-ficationC/NIPS Workshop on Deep Learning forSpeechRecognition and Related Applications,Van-couver,Canada,2009:1-4.9JiangB,SongY,WeiS,etal.DeepbottleneckfeaturesforspokenlanguageidentificationJ.PLoSONE,2014,9(7):1-11.10Lopez-MorenoI,Gonzalez-DominguezJ,Plchot

36、O,etal.AutomaticlanguageidentificationusingdeepneuralnetworksC/IEEEInternationalConferenceonAcous-tics,Florencie,USA,2014:5337-5341.11GengW,WangWF,ZhaoYY,etal.End-to-endlan-12第45卷华英杰等:基于听觉特性和发声特性的语种识别813guage identification using attention-based recurrentneuralnetworksC/Interspeech2016,SanFrancisco,

37、USA,2016:2944-2948.WatanabeS,HoriT,HersheyJR.Languageindepend-entend-to-endarchitectureforjointlanguageidentifica-tion and speech recognitionC/IEEE AutomaticSpeechRecognition&UnderstandingWorkshop,Ok-inawa,Japan,2017:265-271.13CaiWH,CaiZX,LiuWB,etal.Insightsintoend-to-end learning scheme for languag

38、e identificationJ.IEEESignalProcessingSocietySigport,2018,28(2):202-210.14SnyderD,Garcia-RomeroD,MccreeA,etal.Spokenlanguage recognition using X-vectorsC/Odyssey2018The Speaker and Language Recognition Work-shop,LesSables-dOlonne,France,2018:72-79.15JinM,SongY,McloughlinI,etal.LID-senonesandtheir st

39、atistics for language identificationJ.IEEEACM Transactions on Audio,Speech,and LanguageProcessing,2019,26(1):171-183.16BhanjaCC,BisharadD,LaskarRH.Deepresidualnetworks for pre-classification based Indian languageidentificationJ.Journalof Intelligent&Fuzzy Sys-tems,2019,36(3):2207-2218.17Garain A,Sin

40、gh P K,Sarkar R.FuzzyGCP:A deeplearning architecture for automatic spoken languageidentification from speech signalsJ.Expert SystemswithApplications,2021,168:114416-114429.DOI:10.181016/j.eswa.2020.114416.韩玉蓉.基于深度学习网络的语音语种识别技术研究D.西安:西北大学,2021.Han Y R.Research on speech language recognitiontechnology

41、basedondeeplearningnetworkD.Xian:NorthwesternUniversity,2021.19白静,史燕燕,薛珮芸,等.融合非线性幂函数和谱减法的 CFCC 特征提取J.西安电子科技大学学报,2019,46(1):86-92.DOI:10.19665/j.issn1001-2400.2019.01.014.BaiJ,ShiYY,XuePY,etal.CFCCfeatureextractioncombiningnonlinearpowerfunctionandspectralsub-tractionJ.JournalofXidianUniversity,2019,

42、46(1):86-92.20邵玉斌,刘晶,龙华,等.基于声道频谱参数的语种识别J.北京邮电大学学报,2021,44(3):112-119.DOI:10.13190/j.jbupt.2020-228.ShaoYB,LiuJ,LongH,etal.LanguagerecognitionbasedonvocaltractspectralparametersJ.JournalofBeijing University of Posts and Telecommunications,2021,44(3):112-119.21刘晶,邵玉斌,龙华,等.基于 GFCC 和能量算子倒谱的语种识别J.云南大学学报(

43、自然科学版),2022,44(2):254-261.DOI:10.7540/j.ynu.20210177.LiuJ,ShaoYB,LongH,etal.Languagerecognitionbased on GFCC and energy operator cepstrumJ.Journalof Yunnan University(Natural Sciences Edi-tion),2022,44(2):254-261.22LanguageidentificationbasedonauditoryandvocalcharacteristicsHUAYing-jie,DUOLin*,LIUJi

44、ng,SHAOYu-bin(FacultyofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)Abstract:Aimingatthepoorperformanceoftheexistingmethodsinlanguageidentificationinthelowsignal-to-noise ratio environment,a language identification method is proposed,which in

45、tegrates the cochlear filtercoefficientsandthespectralparametersofthevocaltractimpulseresponse.Thismethodcharacterizeshumanvocalizationcharacteristicsandhumanhearingcharacteristics.Firstly,thecochlearfiltercoefficientsthatsimulatetheauditorycharacteristicsofthehumaneararefused.Thenthespectralparamet

46、ersofthevocaltractimpulseresponsethatcharacterizethecharacteristicsofhumanvocalizationareextracted.Finally,theGaussianmixturegeneralbackgroundmodelisusedtotesttheproposedmethodinlanguageidentification.Theexperimentalresultsshowthatinthefoursignal-to-noiseratioenvironments,thismethodissuperiortoother

47、comparisonmethods.ComparedwiththelogarithmicMel-scalefilterenergyfeaturebasedondeeplearning,theidentificationaccuracyisimprovedby16.1%,whichisalsoverygoodcomparedtoothermethods.Keywords:languageidentification;cochlearfiltercoefficient;vocaltractimpulseresponsespectralparameters;Gaussianmixturegeneralbackgroundmodel814云南大学学报(自然科学版)http:/第45卷

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服